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由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法. 定量研究系列”丛书，精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书中的35种，翻译成中文，集结成八 
册，于2011年出版。这八册书分 别是： 《线性回归分析基 
础》、《高级回归分析 M 广义线性模型》、《纵贯数据分析》、 
《因果关系模型》、《社会科学中的数理基础及应用》、《数据分 
析方法五种》和《列表数据分析》。这套丛书自出版以来，受 
到广大读者特别是年轻一代社会科学工作者的欢迎，他们针 
对丛书的内容和翻译都提出了很多中肯的建议。我们对此 
表示衷心的感谢。 

基于读者的热烈反馈，同时也为了向广大读者提供更多 
的方便和选择，我们将该丛书以单行本的形式再次出版发行。 
在此过程中，主编和译者对已出版的书做了必要的修订和校 
正，还新增加了两个品种。此外，曾东林、许多多、范新光、李 
忠路协助主编参加了校订。今后我们将继续与 SAGE 出版社 
合作，陆续推出新的品种。我们希望本丛书单行本的出版能 
为推动国内社会科学定量研究的教学和研究作出一点贡献。 



往事如烟，光阴如梭。转眼间，出国已然十年有余。 
1996年赴美留学，最初选择的主攻方向是比较历史社会学， 
研究的兴趣是中国的制度变迁问题。以我以前在国内所受 
的学术训练，基本是看不上定量研究的。一方面，我们倾向 
于研究大问题，不喜欢纠缠于细枝末节。国内一位老师的 
话给我的印象很深，大致是说 ：如果 你看到一堵墙就要倒 
了，还用得着纠缠于那堵墙的倾斜角度究竟是几度吗？所 
以，很多研究都是大而化之，只要说得通即可。另一方面， 
国内（十年前）的统计教学，总的来说与社会研究中的实际 
问题是相脱节的。结果是，很多原先对定量研究感兴趣的 
学生在学完统计之后，依旧无从下手，逐渐失去了对定量研 
究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量 
研究方面有着系统的博士训练课程。不论研究兴趣是定量 
还是定性的，所有的研究生第一年的头两个学期必须修两门 
中级统计课，最后一个学期的系列课程则是简单介绍线性回 
归以外的其他统计方法.是选修课。希望进一步学习定量研 
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究方法的可以在第二年修读另外一个三学期的系列课程，其 
中头两门课叫“调查数据分析”，第三门叫“研究设计”。除此 
以外，还有如“定类数据分析”、“人口学方法与技术”、“事件 
史分析”、“多层线性模型”等专门课程供学生选修。该学校 
的统计系、心理系、教育系、经济系也有一批蜚声国际的学 
者，提供不同的、更加专业化的课程供学生选修。2001年完 
成博士学业之后，我又受安德鲁 • 梅隆基金会资助，在世界 
定量社会科学研究的重镇密歇根大学从事两年的博士后研 
究，其间旁听谢宇教授为博士生讲授的统计课程，并参与该 
校社会研究院 （Institute for Social Research ) 定量社会研究方 
法项目的一些讨论会，受益良多。 

2003年，我赴港工作，在香港科技大学社会科学部，教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学 ” （Statistics for Social 
Saence ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课(事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候，根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的 
例子，结合语言和图形•帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后,我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的 文章; 另一方面，也能在自己的研究中运用这些成熟的 



方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有 
少量重复，但各有侧重。“社会科学里的统计学” （ S tatl s tlcs 
for Social Science ) 从介绍最基本的社会研究方法论和统计 
学原理开始，到多元线性回归模型结束，内容涵盖了描述性 
统计的基本方法、统计推论的原理、假设检验、列联表分析、 
方差和协方差分析、简单线注回归模型、多元线注回归模 
型，以及线性回归模型的假设和模型诊断。“社会科学中 
的定量分析”则介绍在经典线注回归模型的假设不成立的 
情况下的一些模型和方法，将重点放在因变量为定类数据 
的分析模型上，包括两分类的 logistic 回归模型、多分类 lo ¬ 
gistic 回归模型、定序 logistic 回归模型、条件 logistic 回归模 
型、多维列联表的对数线性和对数乘积模型、有关删节数据 
的模型、纵贯数据的分析模型.包括追踪研究和事件史的分 
析方法。这些模型在社会科学研究中有着更加广泛的 
应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励 
和支持我将两门课的讲稿结集出版，并帮助我将原来的英 
文课程讲稿译成了中文。但是，由于种种原因，这两本书拖 
了四年多还没有完成。世界著名的岀版社 SAGE 的“定量 
社会科学研究”丛书闻名遐迩，每本书都写得通俗易懂。中 
山大学马骏教授向格致岀版社何元龙社长推荐了这套书， 
当格致出版社向我提岀从这套丛书中精选一批翻译，以飨 
中文读者时，我非常支持这个想法，因为这从某种程度上弥 
补了我的教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事不但要有对中英文两种 
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语言的精准把握能力.还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强 
的内容.只有语言能力是远远不能胜任的在短短的一年 
时间里，我们组织了来自中国内地及港台地区的二十几位 
研究生参与了这项工程.他们目前大部分是香港科技大学 
的硕士和博士研究生，受过严格的社会科学统计方法的训 
练.也有来自美国等地对定量研究感兴趣的博士研究生 
他 们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智 
明、叶华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、 
肖东亮、辛济云、於嘉、余珊珊.应用杜会经济研究中心研究 
员李 俊秀; 香港大学教育学院博士研 究生洪 岩璧;北京大学 
社会学系博士研究生李丁、赵 亮员； 中囯人民大学人口学系 
讲师巫 锡炜； 中国台 离“中 央”研究院社会学所助理研究员林 
宗弘; 南京师范大学心理学系副教授 陈陈; 美囯北卡罗来纳 
大学教堂山分校社会学系博士候选人姜含涛 ： 美囯加州大学 
洛杉矶分校社会学系博士研究生宋曦。 

关于每一位译者的学术背景.书中相关部分都有简单 
的介绍。尽管每本书因本身内容和译者的行文风格有所差 
异.校对也未免挂一漏万.术语的标准 译法方 面还有很大的 
改进空间.但所有的参与者都做了最大的努力，在繁 忙的学 
习和研究之余.在不到-年的时间内.完成了三十五本书、 
超过百万字的翻译任务。李駿、叶华、张卓妮、贺光烨、宋 
曦、於嘉、郑冰岛和林宗弘除了承担自己的翻译任务之外， 
还在初稿校对方面付出了大量的劳动。香港科技大学霍英 
东南沙研究院的工作人员曽东林.协助我通读了全稿，在此 



我也致以诚挚的谢意。有些作者，如香港科技大学黄善国 
教授、美国约翰 • 霍普金斯大学郝令昕教授，也参与了审校 
工作。 

我们希望本丛书的出版，能为建设国内社会科学定量研 
究的扎实学风作出一点贡献。 


吴晓刚 

于香卷九龙清水湾 



在非实验社会科学研究中，回归分析是最常用的方法。 
在数据收集和录人以后，研究者无一例外地开始尝试回归模 
型.对其定义的等式使用最小二乘法 （ OLS ) 进行估计。但 
() LS 这一强大的工具却并不&是正确的。其一便是某类特 
殊形式的数据可能导致 OLS 估计量的偏误。布林 ( Breen ) 教 
授在本书中讨论的数据形式包括删截 （ censored ) 数据、选择 
性样本 （ sample-selectecD 数据以及截断 （ truncated ) 数据。麻 
烦的是.该领域的术语运用并不统一，但相信本书的例子会 
帮助我们澄凊这些概含。 

假设城市政策学者色色拉 • 布朗 （Barbara Brown ) 希望 
研究这一问 题:为 何美囯城市比其他城市在空气污染控制上 
花费更多？她以 Y 表示其因变量污染控制开支.并以 A 到 
A 表示各城市从预算到社会经济指标的十项解释变量，然 
后从标准城市年鉴中搜集数据。设想第一种情 况:在 其城市 
样本中，年度污染开支只在超过10万美元时才被记录在案. 
否则就是缺失值即 i 是截断的妖而由 TX 并未被截断. 
而是包含所有城市的信 I •因而构成删截样本若布朗博士 
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仍然使用 OLS 方法去估计模型.则结果如何呢7为构成数据 
集，她只能使用10力美元的个案•或者她可以对所有无 
记录的城市假设一个小于10万美元的取值.如9万美元 
无论怎样处理， OLS 都会提供有偏的参数估计。 

在上面的例子中，数据的删截注 （ censoring ) 是由于因变 
量 Y 的截断 ( truncation ) 。而另一类更复杂的截断则是由于 
因变量 y 的观测受另一变量 Z 影响。我们稍微改动空气/亏 
染的例子，以设想第二种情 况:假 设其他一切条件不变.但年 
鉴却只包含通过了空气凊洁/去令的城市。则变量 Z 在通过 
空气凊洁法令时取值1.末通过则取值为0。这即为选择性 
样本问题。布林教授提示通过两个步骤以回应该问 题：首 
先.某城市通过空气凊洁法令的概率有 多大； 其次•在通过空 
气凊洁 法令的前提下，城市的污染开支为多少，那么该模型 
的参数要怎样佔计呢，如果不是用 （) LS 模型，那么是应该使 
用 Tobn 模型，还是赫克曼两步骤方法.还是最大似然估计方 
法呢。布林教授分别对这些估什方法的弱 * 和优点进行讨 
论，如以删截回归为例，他解释了最大似然 Tobu 估计一般来 
说优于赫克曼两步骤方法的原因。 

如布林教授所言.删截数据、选择性样本数据以及截断 
数据涉及“社会科学中的广泛议题”，而詹姆斯 • 托宾 (James 
Tobm )1958 年的论文引发了对这类议题的现代研究。因此 
我们的丛书非常需要这样一本关于删截数据的著作。其次， 
本书也是对丛书中更早的一本《事件史分析》的有效补充，后 
者主要处理另一种类型的删截数据。 


迈克尔.刘易斯一贝克 
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请考虑如下问题。某次校级考试的及格成绩为40%，所 
有参加考试的学生皆被授予证书，但只有及格的学生才会同 
时获知考试成绩。某位研究考试成绩之影响因素的社会学 
家抽出一部分学生样本，试图考察一系列解释变量诸如阶 
级、性别、父母教育程度对学生考试成绩的影响。但其关于 
学生考试成绩的信息来自学生自己的考试证书。因此若以 
3-表示第 z 位学生的考试成绩，则仅当 X > 39时，研究者才 
会得知学生的具体分数。否则（对于那些考试未及格的学 
生）•研究者仅仅知道 X < 3 9 。因而研究者面临这样的问 
题 ：如何 使用这种样本数据去估计考试成绩和解释变量之 
间的关系 7 有两种简单的办法。一是使用最小二乘法 
( OLS ) 对. V 进行所有解释变量的回归，该方法使用所有样 
本，并且对所有不及格的学生指定其7= 3# 11 。这种方法 
有许多不妥之处，而其中最重要的是 OLS 的回归系数(它本 
应告诉我们> ■和解 释变量之间的关系）显然是总体真值的 
偏误估计。 

第二种解决办法是仅仅使用3-> 39的样本信息对 y 进 
行 OLS 回归。但这种方法不仅舍弃了 v <39 的所有样本信 
E . 而且由于其估计来源于一个并不是随机选择的子 样本. 
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因而不能很好地代表总体。此处的 OLS 估计同样是总体参 
数的偏误估计。虽然并不那么显而易见，但更重要的是， 
OLS 回归系数甚至也不是^>39的部分总体的无偏误估计 
(第2章将做解释)。 
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第1节 I 删截、 选择性样本和 
截断数据 


为了解决这一问题(这也是本书要讨论的方法），我们需 
要采取两个步骤。首先是测量个体通过考试的概率。换言 
之，我们使用一系列相关的解释变量来拟合^大于39的概 
率，即 pr (^>39)„ 然后我们再使用一列相关变量，拟合通过 
者的期望成绩，即 EG I 39)，其中£代表期望值。在模型 
拟合中，这两个步骤可以分开进行，也可更有效率地共同进行。 

我们描述的此例在统计学文献中被称做删截样本问题。 
我们可以引人一些名称来更准确地说明其含义。若对于随 
机变量^有某数值 c ， 对于 y > c 的所有样本，我们知道^的 
确切数值，但对于其他样本，我们则仅仅知道 y < O 则称为 
由下截断(左截断）。这正是我们开始时使用的例子所描述 
的情况。同时我们还有由上截断(右截断），表示我们知道所 
有 J 小于某一阈值 c 时^的确切值,但对于所有其他样本，我 
们仅知道收人是一个典型的例子，对于样本中的高收 
人群体，我们可能仅仅知道其年收人是10万美元或以上。 
若存在两个或更多阈值，则还有可能出现多截断的情况。如 
两个阈值 d > c ， 若 c < y < d ， 则已知 jy 的具体数值;而当 
J 时，^ e •即为全部已知信息；而对^ A 我们仅知 
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y > d 0 例如高收人和低收人都被截断的例子。 

假设我们有一个截断 >> 的样本，其中包含一系列变量^, 
々=1，"_,尺,而）是為的函数。则: r〆 简写为: c ) 是以 ） 为因 
变量的回归分析中的解释变量。若对所有样本我们都有 x 的 
观察值，则样本称做删截的。所以在左删截的样本里，我们既 
能获得所有^ > c 的 x 值(其中 J 有确切值)，也可知道 y 小于 
或等于 c 时的 x 值。相反，如果仅仅对那些^有确切值的样 
本，其 I 才被观察到，则该样本称作截断的。在这种情况下， 
对于^缺乏具体取值的样本，我们没有任何信息。 

现在我们对截断的随机变量，以及含有这类变量的整体 
样本数据进行区分。后者可以是一个删截样本，即使 y 落人 
其截断区域,我们也有样本的部分 信息； 它亦可是一个截断 
样本，当落入截断区域时则我们不具备任何样本信息。此 
处我们使用了与赫克曼 （ Heckman , 1992:205) 相同的术语名 
称，但在文献中，这类术语的使用却并不 一致: 类似删截随机 
变量的说法相当常见，其中 c 被称为“删截”（而不是截断）阈 
值。但我认为名称反而是第二位的，读者理解删截数据和截 
断数据的不同才是重点。 

接下来我们将区分两大类删截样本，它们之间的区别在 
于决定因变量 J 是否具有确切观察值的机制有所不同。在 
类似本书列举的第一个例子的一般删截问题里^的观察值 
的特性取决于其本身，例如大于阈值 r 。 但在选择性样本问 
题中 （ Heckman , 1979)，： y , 是否能被确切地观察，取决于另 
一变量 z , 的值。我们可以举一个简单的例子，比如成年人给 
予其孩子零花钱的数额(>0。因为不是所有的成年人都有孩 
子，所以在一个子样本中，我们不具备^的观察值。若以 
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Z , = 1表示第 Z 位成年人有孩子，反之 Z ,=0, 则我们需要两 
个步骤来解决问题： （1) 拟合所有样本中成年人有孩子的概 
率; （2) 在有孩子的样本中，拟合^的期望值。因而选择性样 
本是删截问题的一种，但其因变量的截断是因为存在另一变 
量 z 。 仍以此为例，我们会有两列解释变量，用以解释成 
年人是否有 孩子; 以及: T ， 用以解释^的观察值。对于所有样 
本，我们都有 W 和 X 的所有信息，并不管其处于被选择范围 
之内（同样可以观察到 W 还是之外(没有 J 的观察值）。和 
X 可能有一些重合变量，甚至有可能完全相同。删截数据与 
选择性样本数据的区别有时也被称做“外在选择” （ explicit ) 
和“内在选择” ( incidental ) ( Goldberger , 1981) 。 

现在我们有了三种类型的样 本:删 截样本、选择性样本和 
截断样本。表 1.1 总结了其中的区别。但这三类样本的结构 
基本相同，而且它们常被共同称做删截问题。用于处理这类 
问题的统计模型有时也会被总称为 Tobit 模型 （ Amemiya , 
1984), 尽管严格而言, Tobit 模型仅是处理这类数据的特殊 
模型中的一种。 

表 1.1 綱截样本、选择性样本及截断样本 

样本类型 因变量 自变量 

删截样本仅在其值满足某些条件，如无论^是否有确切取值，对 
_ y > r 时，才可获知其确切取于整个样本，自变量: T 都具 
值。： y 是截断的随机变量 有观测值 

选择性样本： y 仅在另一随机变量 z 满足某无论^是否有观测值，对于 
些条件，如1时，才具有观整个样本， I 和都可被 
测值。^是截断的随机变量 观测 

截断样本： y 仅在其值满足某些条件，如仅当^具备观测值时，自变 
时，才具有观测值。^是量才可被观测 
截断的随机变量 
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第2节 I 两步模型 


上述删截数据、选择性样本数据以及截断数据的共同结 
构决定了它们要使用两步模型。 [2] 在所有这些情况下，因变 
量^都只在一个子样本（我们称做选择的子样本）中具有观 
察值 。乂 是否具备完全的观察值（或者说，某一个案是否落 
人选择的子样本）可以取决于 y 本身（删截模型）•也可取决 
于另一变量 4( 选择性样本模型）。而这两者与截断模型之 
间的区别 在于： 前者含有选择子样本和非选择子样本的信 
息，而后者则仅含有选择子样本的信息。因而.对于删截数 
据和选择性样本数据，我们既可拟合选择层(第个个案进人 
选择的子样本的 概率） ，也可拟合结果层 (选 择的子样本中％ 
的期望 值）； 而对于截断数据，我们只能拟合后者。 

选择两步模型的另一个好处是，它将本章介绍的方法与 
连续变量的回归分析以及二分变量的分析模型（如 logit 和 
probit 模型)联系了起来。选择层本质上是--个二分变量模 
型(被选择与未被选择），而结果层则类似于连续变量 J 对一 
系列解释变量 x 的回归模型。因此，本章结合刘易斯一贝克 
( Lewis - Beck . 1980) 与阿肯 （ Achen . 1982) 关于回归模型的 
论述•以及奥尔德里奇和尼尔森 （Aldrich &. Nelson . 1984) 对 
离散型变量的分析方法的讨论来构建模型 
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另一部分相关文献则是处理持续时间数据或事件史模 
型的。在使用这些模型时，我们关注样本成员在移人另一区 
间之前，在某区间内花费的时间（例如从无业到工作），以及 
不同个体在不同时间点发生区间转换的风险。通常这类数 
据的观察都建立在一个固定的时间区间 了内。 有一些样本 
成员在这段时间内并未经历转换，因而我们仅仅知道其在原 
始区间内所花费的时间至少等于 T 。 这类个案即为删截的。 
相反，有些样本成员则在时间 T 内经历过转换，则我们会知 
道其在原始区间内花费的具体时间。这些则是非删截个案。 
因此，测量在离开某原始区间之前所花费时间的变量则是以 
: T 而由上截断的。这类似于我们在收人研究中发现的上截 
断，因而本章中所介绍的方法(需做微小改动)也可用于这类 
问题。在时间数据的相关文献中，这类方法被称做加速失效 
模型 （Kalbfleisch &• Prentice ，1980) 0 它基本上是一种表 7 K 
原始区间内停留时间的期望长度（或长度的对数形式）的删 
截回归模型。尽管删截个案与未删截个案之间的区别仍是 
重点，但现在时间数据的常用方法关注“风险率”(详细介绍 
见 Alhson ， 1984)。这类模型在统计学中现已成为高度发展 
的领域，我们在此不再进行讨论，然而我们仍将在第5章讨 
论删截模型与加速失效模型之间的关系。 



第 1 章概论 


第3节 I 社会科学中的劃截、选择性 
样本以及截断问题 


为何我们关注删截、选择性样本及截断问题？最直观的 
原因是它们在社会科学中的普遍性。现代学科对删截数据 
的最早估计始于托宾的文章 ( Tobm ，1958) ，文中介绍了后人 
所称的 Tobit 模型 W 。 使用735户的样本数据，托宾分析了 
持久消费品支岀占总可支配收人之比例与两个解释变量之 
间的关系，包括户主年龄与流动资产占总可支配收人的比 
例。在他的样本中，有183户的因变量取值为0,因此因变量 
>>以阈值 f = 0 而截断，从而构成删截样本。从此该模型就被 
社会科学的许多学科使用。例如在政治学中，迪根和怀特 
(Deegan &- White , 1976) 用其分析1973年休斯敦地方政府官 
员候选人用于电视广告的开销，其中40名候选人中的24名开 
销为0。又如在社会学中，沃顿和拉格 （Walton & Ragin , 
1990) 用其分析债务国公众示威的严重程度。在其56个国家 
样本中，有30个国家没有公众示威记录，其因变量取值为0。 

在删截回归方法使用的许多例子中，删截的阈值都为0。 
这样的例子有家庭资产如公司股份的所有权、酒精消费量、 
耐用消费品的购买等。但同时也存在阈值不为0的情况，例 
如完成全日制教育的年限(其阈值为法定最小离校年龄），有 
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最低工资法的国家的收人情况等。然而并不能因为因变量 
有一个较高或较低的阈值(或两个都有），使得至少一部分个 
案被聚类在一起，就可以认定删截回归模型成为正确的选 
择。在详细介绍该模型后，我们会继续讨论在什么时候删截 
回归模型才是适用的。 

选择性样本数据的例子大量存在于社会科学研究中。 
其被广泛运用的领域之一是评估研究,尤其是对劳动力市场 
项目的影响研究。其中项目参与并不是一个随机事件，因而 
参与行为的效果（如收人或工作机会）研究不仅需要估计进 
人项目的几率，也需要估计进人项目后的结果。其详细介绍 
参见巴尔诺、凯恩和戈德堡的著作 （ Barnow、Cain &- Gold ¬ 
berg , 1980)。 

学校效应的研究也是选择性样本问题经常出现的领域 
( Coleman、Hoffer Kilgore , 1982)。例如，如果我们关注 
就读于一类学校比之另一类学校的相对效应，则不仅需要研 
究人选某类学校的过程，还需要分析人选后就读于该类学校 
的影响。 

调查中的无应答也会产生选择性样本问题。如某问卷中 
关于性生活频率的问题遭遇了大量的无应答。若该无应答是 
随机的，则使用已应答的子样本来模型化性交频率的解释变 
量不会存在问题。但很显然无应答并不是这样纯粹随机的. 
这导致仅对回答者提供的信息进行 OLS 回归可能出现偏误估 
计。此处我们同样应该进行两步 估计: 首先是无应答或应答 
的过程，然后是在应答者中估计其性生活的期望频率。 

某些时候选择性样本问题和删截问题可能同时发生。 
例如对刑事司法系统的研究，若关注对有罪被告人所判处的 
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监禁时间，则我们应关注其中的多阶段过程。首先，在被带 
人法庭的被告人中，仅有一部分被发现（或辩称） 有罪； 而在 
有罪的被告人中，仅有一部分会接受监禁。在第一阶段，我 
们可以使用选择性样本的方法去估计被判定有罪或宣告无 
罪的过程,而将第二阶段看做删截样本的例子，因为同样的 
自变量可以用于决定被告人是否被判监禁以及监禁的时间。 
因此，我们可以对有罪认定的被告人的获刑时间拟合一个删 
截回归，但应对其做样本选择性偏误修正，因为有些人并不 
被认定有罪。整个刑事司法程序可以看做不仅是两个步骤 
的综合，而且是整体一系列阶段的综合（拘留、传讯、审判、判 
决），其中每一阶段都在上一级样本中选择一个较小的子样 
本 U 因而理想状态应是整个过程被拟合为一系列选择注样 
本和删截数据的模型 （ Hagan ， 1989 ； Hagan & Parker , 
1985 ； Peterson Hagan , 1984)。 

某些抽样会导致截断问题。如研究者并不总是从总体 
整体中抽取样本，而是直接在自己所感兴趣的那部分总体中 
进行抽样，如仅调查那些收人在贫困线以下的家庭。此时如 
果研究者对收人和教育之间的关系进行测量，则 OLS 回归必 
然导致有偏的参数估计。即使研究和所感兴趣的仅仅是贫 
困家庭中的此项关系，其参数估计仍然有偏误 （ Berk ， 1983： 
388)。两步骤模型（为删截数据所设计）并不能解决这类问 
题，因为关于贫困线以上的家庭我们没有任何信息，所以只 
能使用截断数据的分析技术。对找到工作前的无业期的研 
究同样面临此类问题。因为无业人群并不是总体的随机子 
集•因而仅根据无业人群的信息所做的参数估计很有可能出 
现偏误。 
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第4节 | 理论基础 


接下来，我们假设社会科学研究者们希望对一个或多个 
解释变量（自变量）与某个因变量之间的关系进行总体参数 
估计，并假设这些估计使用总体的一个随机样本进行。 

本书所介绍的删截、选择性样本，以及截断数据的分析 
方法，如前文所述,包含两个步骤，并对两个步骤分别拟合模 
型。选择该方法的原因是显而易见的。作为一项标准统计 
结果，我们可以将随机变量 r 的期望值看做以下两项的乘积 
之和巧落人某一分散区间的概率，以及 t ； 在该区间内的期望 
值。若以乙 ( m = l ， 2,…， M ) 表示各分散区间，则 r 的期 
望 值为： 


E(v) = X/P r ^ ^ \ V ^ I m ) [1.1] 

m = 1 

其中 pr(w 6 O 表示 ^ 落在第号区间的概率。因而， 
随机变量的期望值可以表示为其条件期望 （£[〃 I / J ) 乘 
以概率 （ p 心 e O 之和。方程 1. 1即为“期望的全概率法 
则”的简单形式 (Karlin & Taylor , 1975:8 )。 

将该结论运用于删截问题，因为在一般回归中我 们有： 

E(y t I X,) = x；p [1.2] 
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其中 下标〗 表示样本中的第〖个个案，而 X 和 P 皆为列向 
量组。 

考虑 J 在某常数 C 两端的取值，则根据方程 1. 1的结果， 
我们可以将方程 1 . 2的左侧 写作： 

E(y, I X ,) = pr (: y, > c I x,)E(y, \ y, > c , x,) 

+ pr(>, < c I \,)E(y, \ y.^c, X,) [l. 3] 


此时方程 1.1 中所指的区间由变量^自身 决定： A 是区 
间（一％ 3而/ 2 是区间 ( c ，+ w )。 J 是否超过 c 的概率则被 
看作与 X 相关,而方程的期望值部分则不仅取决于 X ，也取决 
于3^与 r 的大小关系。因为 J 被 C 分为两部分，所以^小于或等 
于 c 的概率为1减去 y 大于 c 的概率。所以方程 1. 3可 写作： 

E(y, t x,) = pr(>>, > c \ x^Eiy ； \ y, > c, X,) 

+ [1 — pr(^, > c I x,)]E (: y, I 乂 < c ， X,) 

[1.4] 

若^以 c 为阈值由下截断，则其观察值的期望 值为： 

E(y, I x,) = pr (: y, > c i x,)E(y, | y, > c, x,) 

+ [1 — pr (: v, > c I x,.)] X c [1. 5] 

注意，最后一项条件期望值在方程 1. 5 中被常数 c 替代 
了。这完全无伤大雅，因为若我们定义 z = 并将 Z 作为 

因变量，则我们可以设 C = 0 。 虽然这会改变截距的原始估计 
值 a , 使之变为 a — c , 但这并不会改变其他的斜率估计值。现 
在看来，我们仅需估计等式的两个部分，正如之前讨论的那 
样.估计选择(某一个案不被删截的概率）和结果（未删截个 
案的条件期望)两个步骤。而这两项都被看做同一系列变量 
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X 的函数。 

事实上，该模型也并不必要如此严格。选择和结果步骤 
并不要求是同一列变量的函数。回到方程 1. 1，其分散区间 
也不必以随机变量 t 来定义，我们亦可用另一变量2来定义 
其区间。类似的，选择过程也可能比模型所显示的更复杂。 
前面我们已经提到了双重截断(同时具有上下限）的情况，同 
样，我们也可能有更复杂的选择性样本，如仅当两个标准被 
满足时 d 具有确切的观察值。如我们有两个随机变量 Z 和 
r ，则仅当> 0且> 0时，我们能观察到乂。此时模 型为： 

E(y,) = pr(z, >0 ， r, > 0)E(y, | z, > 0 ， r, 〉 0) 

为了方便起见，我们省去了模型两部分中的解释变量，但 r 、 
s ： 都可以是不同解释变量的函数。如果 r 和 z 互不独立， 
则选择过程的拟合需要考虑二元概率分布。 

更基本的复杂性来自于两步骤的同步而非顺序发生。 
例如，我们希望研究与人们的收人相关的变量。在工作年龄 
的成年人总体中抽取随机样本，则并非每个人都有工作，因 
而，因变量收人(或收人的某些转化形式)仅对样本的某些成 
员具有观察值。若我们进一步假设人们仅仅会从事那些工 
资在其接受程度的最低限(“保留性工资”）以上的工作，则选 
择过程(个人是否有工作）和结果过程（当个人有工作时，其 
工资是多少)并不是顺序发生的。相反，它们同时发生。只 
有当工作报酬高于个人的保留性工资时，我们才能观察到某 
人有工作。我们将在第 5 章讨论这类模型。尽管这类同时 
性使得模型的估计更复杂，但我们仍相信两步骤模型在处理 
这类问题时的优越性。 



第 5 节 I 本书内容 


在下一章，我们将首先介绍删截样本的最简估计形式， 
即 Tobit 模型 （ Tobin , 1958)。我们将用较大篇幅解释与其 
相关的问题，如最大似然估计和参数解释。在第3章，我们 
会讨论基本的选择性样本数据模型以及截断回归模型。第4 
章通过最大似然估计法丰富删截模型和选择性样本模型，将 
本书介绍的方法与非连续因变量的其他回归方法如有序 
probit 模型相联系。同时，我们会讲述如何扩展模型以适合 
选择和结果并非顺序发生的案例。第5章是关于这些方法 
所面临的争议及困难，并在模型的现实运用和寻找替代方法 
方面提供指导。 




删截数据的 Tobit 模型 
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处理删截数据的最简单模型是所谓 Tobit 模型 （Tobim 
1958)，它所处理的即为第1章所介绍的问题。基于托宾的 
模型运用，我们使用另一个例子来展开讨论。以表示第； 
户家庭用于奢侈品的花费，其中第：户家庭来自于一个所有 
家庭的随机样本。以 X ,衷示系列解释变量的值（如月收 
人、财富、家庭成员等）。我们需估计向量 P , 它包含一系列总 
体回归参数，表示 x , 对奢侈品消费的影响。样本包括 N 户 
家庭，其中 N 。 户家庭不消费任何奢侈品，而另 N ,(= N — 
N 。） 户则消费某些奢侈品。 



第 2 章删截数据的 Tobt 模型 

第1节 I 删截的潜在变量 


Tobit 模型及其他类似模型共同认为存在一个潜在变量 
v ，^是其现实观察值。在之前关于考试成绩的例子里，潜 
在变量为个体学生的真实考试成绩(从0到100)，但该潜在 
变量只有在超过阈值时才可被观测。真实考试分数可用 y 
表示，而观测值(从39截断)则可用^表示。类似地，在本章 
的例子中， y 表示家庭在奢侈品上的消费能力或/肖费倾向. 
但我们观测到的是家庭的实际/肖费值 > 它只在消费能力大 
于0时才会出现。所以尽管许多个案的观测值同样为0,但 
其潜在变量的取值可能不尽相同。模型的潜在变量形 式为： 

y! = x'p + “ [2.1] 

假设〃 是独豆并且服从正态分布的误差项，且其均值为0, 
方差为常数 a 。重要的是，我们亦假设方程 2. 1是潜在变量 
与: t 之间的正确关系函数，并且 r 无测量误差，也不存在任 
何遗漏变量。所有这些假设都非常重要.因而在使用 Toht 
模型之前•我们应考虑数据是否满足这些假设。在 OLS 回归 
中，违反这些假设的后果是非常凊楚的，但对本书讨论的 
Tobu 模型和其他模型而言，这些后果尚不明确。然而（我们 
将在第5章详细讨论）我们却知道相比 （ JLS 模型，这些模型 
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在违反假设(如正态分布假设）时更加不稳健。但这并不说 
明此类模型过于脆弱而不宜使用 ：因为 很明显 OLS 回归并不 
适用于这类数据(如示例所言）。坚持使用 OLS 回归，并期望 
它对于或者真实存在，抑或只是我们怀疑的问题显示出更强 
的稳健性，这于理不通。更重要的做法是检验这些假设是否 
被满足，并在可能的情况下转化我们的数据，以使之满足假 
设，或在研究设计及研究进行过程中最小化这类问题。 

观测变量与潜在变量之间的关系可以简单地写作： 
y, = y' if y' > c 

_y, = c if y' 

其中 c 为删截的阈值(在例子中 c = 0 ) o 

若将我们的模型写为观测变量的 J 的形式，并令 r = 0, 
则有： 

若： y , > 0，则 jy , = x ' P + u , 

否则 >>,= 0 

第 1 章中的方程 1. 5 表示某删截于 r 的变量取决于 X , 
的期望值。在本例中，由于 c = 0, 因而方程可以简 化为： 

Eiy, I X ,) = pr (: y , > 0 I x,)E{y, \ y, > 0, x ,) [2. 2] 
现在我们说明怎样使用两步骤方法去拟合该模型。 
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第2节 | 两步骤模型 


选择 

由于叉 >0, 所以： 

X: P + M ,. 〉 0 

因此， 

m, >一 X: p [2. 3] 

换言之， X >0 的概率即为《，超过 一 的概率。 由于 
u , 服从正态分布，则该概率实为某一正态分布的变量超过某 
值的概率。回忆 z 检验的程序，我们可以从标准正态曲线下 
的一块面积看出 ：某一 均值为0,标准差为1的正态分布随机 
变量小于或等于 z 的概率值。现在我们的例子稍有不同 ，因 
为我们试图得知超过< 的概率，其中< =- x ： Po 由于正 
态分布的对称性，随机变量超过 2 的概率即等于其小于一 c 
的概率 .即： 

pr ( w , >— p> = pr ( u , ^ \-P) 

用 F ( x ： p , /) 表示均值为0方差为/的正态分布随机 
变量小于或等于的概率.或简称为 F ,. 则： 
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F = F(\ ， B, a ) = [ — 1 exp (— t 2 a " / )d/ 

_ V 2na 

该概挛等于均值为 0 标准差为 ff 的正态曲线中.从一 i 
到 x ' p 所占的比例。 从而 F 等于 < I )( x：p a ), 或简写为《1>，则 




'/ 2 k 


exp(— t / 2 )At [2. t] 


方程 2. 1 又被称为标准正态分布函数，£：告诉我们标准 
化后的正态分布随机变量（均值为0.标准差为 1) 小于或等 
于 x'p 0 的概率。为标准正态曲线下从一 t 到 x'p a 所占的 
比例 

尤论是写作 F 还是我们会使用/5者）•此项概车都 
可使用 probit 模型来估 if ( Aldrich t Nelson. 1981- 48 
4Q)。 在 probit 模型中 ，a 和 P 并不被单独定义，模型估计的 
参数为 P 1而且为了方便，我们通常假设5= 1( 见 MadddU, 
1983:23)。 


结果 


若不满足方程 2. 3,则对于 v 我们会观察到0值。因此 
我们只：在 y > 0 的条件下估计 j 的条件期望值 。即： 

E ( \ \ v > 0. x ) = x’ p~r £(m | m >— x’ p) 

[2. 5a] 


由于仅当^满足条件时.才有 j >0. 所以在模型中我们不使 
用 £：(« )( 如同在普通 （) LS 模型中听做的那样）.而是使用条 
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件期望值 E ( u , \ U, >— X ： p )。 因为我们已经假设 U 的非条件 
期望值为0,则其条件期望不为0。因此，事实上我们在回归 
式中加了额外的一项。现在的问题在于如何估计这一额外 
项。我们需要知道关于截断的,正态分布的随机变量的期望 
值。其统计结果在附录1中有说明。由于《是正态分布的 
随机变量，且由一 x ' p 向下截断 ，则： 


小， 

E ( u , | u , >— x : P ) = a — [2.5 b ] 

中 I 

o , 仍是对测量的标准正态函数，而 f 则是其对应的标 
准正态密度函数 ，即： 



^/27r 


exp 


(― 

2 ^ 


应庄意区分， O , 是概率，而则是概率所对应的密度。 
方程 2. 5中出现的密度与分布函数之间的比值 （ f /$,)， 被 
称为逆米尔斯比率，或风险率，常用 X ,表示。 


x: P+ _£(«, | >- x:P) = x:p+(j~^~ 

= x ： p+aX, [2. 6] 

该方程的估计十分容易。从 probn 模型的选择步骤的结果. 
我们可以得到观测值 J 大于0的估计概率，这即为同样， 
我们可以得到相应的 的估计值(通过第 z 个个案 [ x ', p /( T ] 的 
标准正态密度函数）。对于那些 y 大于0的个案，我们用 
和各的估计值来计算 X ,的估计值，即逆米尔斯比率。接着 
就可以使用 OLS 回归，通过拟合非零的 J 值和 x 以及估计入 
值的关系来计算 P 和 a 的估计值。 
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E ( y , I y , >0, X,) = x'p+aX, [2_ 7] 

也可用方程 2 . 2来对模型进行估计，它将 y 的期望值看做 
y ,> 0 的概率与兄 > 0时乂之条件期望的乘积 。即： 

E ( y , I x ,) = x ^+ g — [2. 8] 

为估计这一方程，我们同样从 probit 模型的结果中得到 $,， 
即模型的第一部分，则^的条件期望可由方程 2. 5 a 得出。 
通过使用旮和 f 的估计值（由 probit 模型得来），则我们可 
以将方程 2. 8简 化为： 


E ( y , I X,) = <| Px- + a f [2. 9] 

它同样可以用 （) LS 回归来拟合，但这次我们使用的是全部样 
本数据。 

| B 的估计值有时被称做赫克曼两步估计量 （ Amemiya ， 
1984)( Heckman , 1976、 1979) ，尽管这一方法相对简单直 
接，并且易于使用，但同时也面临许多问题。如系数的标准 
误及 a 的估计值都不准确。我们将使用例子对其做进一步 
的说明。 
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第3节 | 最大似然估计 


Tobit 模型使用最大似然估计解决这些问题。它不似 
一般 OLS 方法那样为人熟知，但它的重要性以及在统计和 
计量学中使用的广泛性(包括删截数据、选择性样本数据和 
截断数据)使得我们有必要对其基本原理进行解释(见 Aldnch 
Nelson , 1984:第3章； Eliason , 1993； Kmenta , 1971: 
174—182)。 

首先考虑含有一个自变量 U ) 和一个因变量的回归 
模型。该回归的输出结果会向我们提供三个基本参数 :截距 
a 、 回归系数 P 以及假设为正态分布且相互独立的误差项的 
标准误 a 。 使用最小二乘法可得到 a 和 p 的估计值.同时在 
满足假设（同方差、残差独立性、残差零和性，以及《和^不 
相关)的条件下， OLS 估计量为最优线性无偏估计量 （ BLUE ) 
(£ Johnston , 1972:第2章及第5章），意为最小二乘估计童 
在所有的线性无偏估计量中是最有效(抽样方差最小）的。 

还有另外一种估计 a 、 卩和 a 的方法，即最大似然估计 
法。其基本原 理是： 若估计的一系列参数是总体的参数真 
值.则它们将最有可能产生现测到的样本数据（或严格而言. 
它们会最经常地产生观测到的样本数据）。对于随机变量 
的一系列 X 个样本观测值1.义 • X 、••我们提问：若给定 
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一列总体参数值，则其从总体中得出这些具体观测值的可能 
性多大？而最大似然估计则是尝试所有可能的总体参数值， 
直至发现某一列参数，其得出具体样本观测值的可能性最 
大。因而进行最大似然估计的第一步是写出观测到 y 的某 
一具体模式的似然值。 

我们可用较直接的二项分布来解释其做法，并且我们 
将证明，这即是被泛称为 probit 的模型的由来。二项分布的 
随机变量仅有两个可能取值0和1，且其分布可用一个参数 
来表示，即其均值 I 等于该变量取值为1的概率，因而其 
取值为0的概率是1 一 7 T 。 所以该二项分布随机变量的概率 
分布为： 

f ( y ) = 7 r. v (l — 丌)卜)’ 

它表示该随机变量取某一特殊值 (0 或 1) 的概率。若我们从 
此分布中抽取 iV 个值为样本，则其联合概率分布为： 

/( m ，災， …， y . N ~) 

它表示我们 W 个值的样本取某一特殊组合的0值和1值的 
概率。若样本个案之间互相独立，则联合概率可看做边缘概 
率的乘积 ，即： 


/( 30 /(%)… f(y.) 

用特殊形式来代替/， 则： 

irMl — TtMl — 7 ： y- y ■… ) 1 ~ fc 

N 

=I]V (1 — 丌 广 [2. 10] 
1 


后面的表达式即为似然函数。但为何该看似等同于样 
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本联合概率分布的表达式被称作似然值呢？其原因在 于:尽 
管两者写法相同，但联合概率分布中分布的参数 ( K ) 为固定 
值而 J 为变量，但在似然函数中两者的位置相 反：观 测值为 
固定值 ( J ) 而分布参数则为变量。一旦我们写出似然函数， 
则下一步是在给定样本观测值的情况下，找出使该函数最大 
化的参数值。现实情况中更方便使用的是似然函数的自然 
对数形式，称为对数似然值，常用 L 表示。对数似然值是似 
然值的单调变换，因为两个函数将在同一点取得最大值。在 
本例中，对数似然 值为： 

L = ^][>>, log 7 r + (1 —： y ,) log(l —7 t )] [2. 11] 

i=l 

假设我们的样本含有2000个观测值，其中1472个取值 
1而剩下528个取值0。为了估计未知参数 tt (在0和1之 
间），我们将各个可能的值代入方程 2. 11。若首先猜测 7 t = 
0.5,则对数似然函数的 值为： 

L = 1472 X log (0. 5)+528 X log(l — 0. 5) =- 1386. 29 


表 2. 1是根据对 ; r 的不同猜测而计算的不同的 L 值，可以 
看岀 7 T 在 0.7 时函数值最大，而更精细的研究则能表明对 
数似然值在 tt 为 0.736 时最大。这就是参数 tt 的最大似然 
估计。 

最大似然法并不仅限于估计参数 DTT 表示样本数据中 
取值为1的观测值的比例。我们也可以将 7 T 看做数据和参 
数的函数，假设对样本中的每一个乂，我们都有相应的^值， 
并且 X, 为连续变量。则 Tt, = fix ,), /是某一函数。在 
probit 分析中，我 们有： 
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表 2.1 n 的不同估计下的对数似然函数值 


7 T 的估计值 

对数似然函数值 

0. 1 

-3445. 04 

0. 2 

-2468. 91 

0. 3 

- I 960. 57 

0. -3 

-1618. 50 

0. 5 

-1386. 29 

0. 6 

-1235. 74 

0. 7 

-1160. 72 

0. 8 

-1178. 25 

0. 9 

-1370. 86 


7： ; = ^>(a + yx,) 

其中少表示标准正态分布函数,并假设 a - 1, 

将该表达式代人方程 2. 11，则对数似然 值为： 

L = 2 log « I >,) + ( 1 - ) log ( 1 - $, ) ] [2. 12] 

;二 1 

其中 <5, =$(a + 7l )。 这就是 probh 模型中的对数似然函数 
(Aldrich Nelson , 1984:51)。最大化该项则可得到参数 a 
和7的最大似然估计。当然，此时我们用于寻找的最大似 
然估计的简单方法已不再适合，最大化对数似然函数需要更 
为复杂的办法(见 Eliason ， 1993:第3章）。 

现在假设^不是分类变量或离散变量，而是一个连续 
变量，我们以此作为第二个例子，仍遵循最大似然估计的基 
本程序。我们同样寻找使似然函数最大的总体参数值，并 
在写岀似然函数前弄清样本数据的联合概率分布。而其与 
上一个例子的重要区别在于：对于分类变量或离散变量.我 
们可用其具体值计算联合概率 (换 言之，这类随机变量的概 
率分布函数已有定义）.但对于连续变量而言•事实上并非 
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如此。如同对于二分变量，我们可以找岀^取值为0或3>取 
值为1的 概率; 但对于连续变量，我们并不能指岀^取某一 
特定值时的概率。因此，在似然值中我们不能使用概率分 
布函数。相反，我们应该用密度函数，宽泛而言，它对连续 
变量的意义和概率分布函数对离散变量的意义相同 [4] 。 

假设 M 的总体围绕其均值呈正态分布，则其密度函 
数为： 


/(>'.) = 


y 2 丌 cr’ 


exp 


— L ( y . ~ M )/。] 2 


因此似然函数是所有 x 的密度的乘积。取其对数形式. 
则有： 


L = ^ log( ) -士 [2.13a] 

同样的，最大化此函数即可得到"和 0 的估计值。若我们假 
设 y 在不同的样本个体间变化 ，设 ; a = a + |3 i , . 且将其代人 
对数似然函数 ，则： 

L= tM^7k7^~^ Ly> ~ (a+ ^' )J . 

[2. 13b] 

最大化该表达式则可得到《、卩和的最大似然估计值 
( MLE )。 

最大似然估计值有很多很好的属性.但它们只在样本 
量很大（且在满足正则条件）时才存在。在统计术语中，最 
大似然估计值有较好的渐进性质。这与 （) LS 统计量略微 
有一些不同（当然是在满足 OLS 回归条件.如方差、独立 
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误差、零和误差、解释变项与误差项零相关的情况下）。所 
以， OLS 估计量是无偏的，意即 OLS 估计的参数的期望值 
等于总体的参数真值，也 就是： 

E (0 ) = 0 


其中§是 OLS 的参数估计值。而最大似然估计量则并不满 
足无偏性，只具备一致性。这意味着当样本量增大时，最大 
似然估计量会越来越趋近于参数的总体真值（ Kmenta , 
1971:133—134、181 —182)。这并不是说该估计量是渐进无 
偏估计意即在极限情况下，当样本量非常大时，参数估 
计量的期望值等于其真值 :5: 。最大似然估计量总是具备一 
致性，但它们也可能是渐进有偏的。但是如同伊莱亚森 
( Eliason , 1993: 20) 所指出的，在所有实际应用中，以及用本 
书所讨论的所有模型来讲，最大似然估计量实际上都是渐进 
无偏的。 

OLS 估计量的有效性表示使用最小二乘法得到的参数 
估计的方差总是小于其他线性无偏估计量的方差。而最大 
似然估计量则是渐进有效的，即只有在样本量很大时，其估 
计量的有效性特质才得以成立。最后，如果我们假设误差项 
服从总体正态分布，则 OLS 估计系数也服从同样的正态分 
布，因而我们可以计算其置信区间，并进行显著性的标准统 
计检验。最大似然估计则是渐进正态分布的，我们再一次强 
调: 它意味着大样本的最大似然估计服从正态分布，但对于 
小样本估计而言，事实并不一定如此。最大似然估计量的方 
差可以很容易地从逆“信息矩阵”的对角线中获得。信息矩 
阵是对数似然函数对参数的二阶偏导之期望值的负数（参见 
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Aldrich &• Nelson , .1984 : 54； Eliason , 1994:20; Kmenta , 
1971:182)，然而它们只是参数的渐进方差，仅在样本量很大 
时才可使用。 

最大似然估计是一种普遍而灵活的 技术： 只要我们能够 
写出似然函数-——它实际上取决于产生样本数据的假 
设——则理论上我们即可估计总体参数。而在现实中我们 
则需考虑对数似然函数是否有效 [ 6 ] ，其中一个重要的问题 
是:该 函数是否只有一个最大值。若函数有好几个最大值， 
则参数估计应考虑其起始值。而 Tobit 对数似然方法并不存 
在这一问题，因为它仅有一个最高点.即它是一个凹函数 
( Olsen . 1978)。 
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第4节 I Tobit 模型的最大似然估计 


在写岀 Tobit 模型的似然函数之前，我们应考虑样本数 
据及我们将做的假设。为使论述具体化，我们以本章开头所 
谈的奢侈品消费为例。首先假设 A 服从正态分布，不同观测 
值的误差项彼此独立，而且误差项与解释变量不相关。其 
次,对样本中的所有家庭，我们知道其是否有奢侈品消费行 
为。再次，对于其中的况个未删截个案，我们知道其消费数 
额。我们使用这三项信息去构建样本整体的似然函数。由 
于对所有样本，我们皆知道其是否有删截，因此，删截个案对 
似然值的贡 献为： 


n ( H ) [2.14 a ] 

即所有删截个案的被删截概率（等于 1 减去未删截的概率） 
的乘积。 

而未删截个案的贡 献为： 

[2. Mb] 

1 

即所有未删截个案的未被删截的概率的乘积。最后.对于未 
删截个案,我们还知道其具体消费数额，这同样应为似然函 
数的一 部分： 
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yj 1 々 [(), —X:P)/(J] 


[2. 14 c ] 


此为截断正态分布的密度函数。由于4>,出现在方程 2. 14 b 
中的分子部分，亦出现在方程 2. 14 c 中的分母部分（皆作用 
于未删截数据），于是可互相抵消。将其与方程 2. 14 a 合并， 
则似然函 数为： 


/= IJ D — $,] U 杏[(: y, — x:p)/a] 

U 1 

为了估计方便，我们使用其对数形式 ，即： 

△ = S 1 呢 (1 — 4>, ) + 2 log ―~= — 2 ^7 (), — x :P) L, 

» V 72^0- v 2o 

[2.15] 

此为 Tobk 模型的完整对数似然函数。注意未删截个案 
之对数似然的加总部分与方程 2. 13 b 中一般误差回归模型 
的对数似然函数完全相同。 

为举例说明我们所讨论的方法，我们使用模拟数据，其 
总 体为： 


y ' = 1 +2. r , + ju , 

其中 ", 服从均值为0标准差为2的正态分布。因而总体参数 
P = 2, a = 2。从总体中抽取2 000个个案作为样本，用以估计 
(3和〜由于此为模拟数据，因而我们可以简单地使用潜在变 
量，进行样本回归。则得到估计值 f = 2. 126( 标准误= 
0. 052)； ^ (截距项 ） = 0. 927(0. 053) 以及= 2.02 = 

若从 0 对样本进行删截.则我们定义 _ v 为： 



I 


»截 、选择性样本及截断数据的回归横型 


y, = y' if y' > o 
y, =o if y' < o 

在我们的样本中，我们给予472个0值。接着我们使用以 
下四种方法估计|3和 ( J : 

1. 使用所有观测进行 OLS 回归； 

2. 使用非零观测进行 OLS 回归； 

3. 赫克曼两步骤 估计； 

4. 最大似然 Tobit 估计。 


表 2. 2 是 4 个拟合模型的结果，可以看出它们对卩和 0 
有着不同的估计值。最显而易见的是 Tobit 模型和使用潜在 
变量进行回归的 OLS 模型（当然，在实际数据中我们因为无 
法获知 y 而不可能进行此项比较)得出了非常近似的结果。 
而赫克曼两步法提供的结果也比较相近。相反，使用>■或者 
大于0的部分进行 OLS 回归所得到的结果则远远偏离于 
总体卩和 a 的值。正如我们在第1章所指出的，这些估计是 
有偏的。对于方法 A ， 当使用所有的^值时，其偏误的来源 
是显而易见的。方程 2. 8 和方程 2. 9 给出了 y 的非条件期望 
的正确模型，而^对 x 所做回归得出的系数估计与方程 2. 9 
中得出的部分并不相等，除非对于所有个案都有电= 1( 因 
而 f = 0) 。但4>,是某一个案未被删截的概率，由于删截个案 
总是存在，因而其不可能为1。所以若方程 2. 9中的系数是 
无偏的，则方法1估计得到的系数是有偏的。 

对于方法2,它仅仅使用正数的^值，而方程 2.7 中给出 
了 E(y : j 〉0) 。但该方程却不能用正数 J 对: r 的估计得到. 
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因为它违反了 OLS 回归的两个中心假设—— u 的均值为0, 
以及《和: r 不相关——因而不能保证估计量的无偏性和一 
致性。此时， E ( m , | >- Px ,) 不等于 0( 因为 M 的非条件期 

望等于0)，相反它会是 x , 的函数 （ Maddala ， 1983:2)。因此， 
方法2的系数是总体参数卩的有偏估计。正如我们在第1章 
指出的，非删截部分数据的 0 LS 回归无法得到无偏参数估 
计，即使仅仅对总体的未删截部分而言也是如此。 

现在关注方法3和方法4。注意在赫克曼 probit 模型 
中，如前文所述 a 设为1。然而 probit 和 Tobk 模型的系数皆 
可用于计算①，，因此我们期望其结果一致。由于其概率都计 
算于 Px, / 0 ， 因而 Tobit 模型的系数大约应为 probit 模型的 
2. 022倍。表 2. 2表明这项关系大致成立, Tobit 模型的系数 
略小于 probit 模型系数的两倍。 


表 2. 2删截数据回归结果(括号中为标准误) 




估计量 


万 法 ■ 

a 

P 

a 

(1) 0 LS (所有样本包括％ = 0) 

1. 529 

1. 681 

1. 676 

(0. 043) 

CO . 043) 

(2) 0 LS (仅 >0) 

2. 085 

1. 386 

1. 704 

CO . 060) 

CO .054) 

(3) 赫克曼两步法 probit 

0. 466 

1. 084 

1.000 

(0.010) 

(0. 010) 

回归 

0. 846 

2. 174 

2. 178 

(0. 266) 

(0, 174) 

(0. 456) 

(4) Tobit 

0. 929 

2. 125 

2. 022 

，对 I 的 回归： Eiy； ) - 0. 927 + 2. 126^, 
(0.053) (0.052) 

CO .059) 

(0. 0 b 6) 

(0.038) 


最后，我们应提早指出赫克曼方法中的第二步 OLS 回归 
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对及标准误的估计是不正确的。赫克曼方法能给出卩的一 
致性估计，但未能给出的，并且也不能对其提供渐进一致 
的标准误。因而我们需对其回归结果进行调整。如第3章 
将描述的.这些调整相当直接。而在删截回归模型中，相对 
于使用最大似然 Tobn 估计，赫克曼两步估计法不具有任何 
优越性，尤其是当现在后者已经出现在许多电脑程序中的时 
候。然而，在下文中，两步模型仍将被广泛地用于处理这类 
问题。 
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第 5 节 I Tobit 模型的参数解释 


为解释 Tobit 模型的结果，我们可以从四类期望值的角 
度人手考察其估计参数。它 们是： 

(1) 潜在变量的期望值。在 Tobh 模型中，它 是： 

E ( y - I x ? ) = x:p [2. 16] 

(2) 超过删截阈值 r 的估计 概率： 

P〆 ）,> c )= [2. 17] 

(3) 观测值的非条件 期望： 

E ( y , ! x,) = $,(x:p + cj^)+(l — $,k [2. 18] 

(4) 在大于阈值 (■的 情况下，观测值的条件 期望： 

6 , 

E ( y , I y > c , X,) = x, P + a — + c [2. 19] 

分清这四项期望值的区别非常重要。诸如 LIMDEP 和 
SHAZAM 等软件的 Tobit 最大似然估计程序输出的 Tobit 
系数，都直接与潜在变量，相关，因而它们表示 x 变量一个 
单位的变化对潜在变量的期望值的影响。换言之.对于潜在 
变量 .Tobit 模型的 p 可以用类似于 OLS 模型的 p 来解释。 
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因此这些系数在用于解释 ( b )( C )( d ) 时不能采取同样直 
接的方式。此时变量 X 的一个单位的变化对因变量的影响 
不能直接由系数卩给出，因为一旦改变•则 {和 $也会改 
变，而它们皆对 pr (乂 > () 、 EO ) 或£：& I > > D 等期望值的 
表达式有影响，因而其偏导数较难计算。从 （1) 到 （4) 的偏 
导为： 


dEiy'' ) 

Sxj 



[2. 20 a ] 

dpr(y >> 0) 

dx j 

= 一)！ 


[2. 20 b ] 

riE(y) 

— 



[2. 20 c ] 

3 ^(y | )>0) 「 

j>(z) 

- z 

l^\ 



[2. 20 d ] 


此处， Z 是 x ! p / a 的值，我们对第7个 x 变量求导 [7 (为方便省 
去下标：），则四项偏导的符号都与 ft 相同。 

如前所述 ， £(y ) 对士的偏导即为 ft 。 它反映了 ，与 X 
之间的线性关系（如方程 2. 1所示）。回到本章开始的例子， 
家庭月收人的系数 P 表示收人的微小变化带来的奢侈品消 
费倾向的改变程度，对于其他变量，其解释类似。相反， 
pr (: y , > c )、£(>) 和 £() | : y > c ) 对: r , 的偏导则都取决于 z 
的值，因而是非线性的。 

对于(2)，系数 p 的解释与 probit 模型相似，唯一的不同. 
是其用 P 除以 <7。这是因为 a 和 p 在 probit 模型中不能被分 
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别估计，但在 Tob.t 模型中其估计是可以分开进行的。因此 
使用我们的例子，这表示解释变量的微小变化（如收入)对家 
庭有奢侈品消费的概率的影响。与 probn 模型的结果相似， 
x, 的变化对概率的影响在概率为 0. 5 左右时最大，在概率接 
近 0 或 1 时最小（参见 Aldrich & Nelson, 1984:43 )。 这是因 
为其偏导等于系数卩乘以标准正态密度函数+,，而士在相应 
概率接近于 0 或 1 时趋向于 0, 在相应概率等于 0. 5 时取其 
最大值。 

£0) 的偏导数等于相关系数 ft 乘以电 U )， 即某观测值 
未被删截的概率。该概率越大，则 E ( y ,) 随&的变化幅度越 
大。这显然是合理的，因为若 y 超过 c 的概率非常小（即大 
部分爻小于 c ) ，则&的微小变化对£(^ ) 的影响将会很小 
甚至没有影响，因为 y 仍会小于 r , 而％则仍为0。这项偏 
导说明在其他 _ r 保持不变的前提下，奢侈品消费的观测值随 
某一 变量的变化而发生的改变。 

最后 d 大于阈值时的条件期望的偏导，表示某一: r 变量 
的变化对那些有奢侈品消费的家庭的消费值的影响。如方 
程所示，该偏导等于相关系数 P 乘以括号内的平方项。后者 
总是为正，且随 z 的增长而增长。因此那些在奢侈品上消费 
较多的家庭与消费较少的家庭相比，其消费额对变量 x 的变 
化反应更大。 

麦克唐纳德和莫非特 （McDonald & Moffit , 1980) 对 
Tobit 的偏导形式给出了一项有趣且有用的分解。从方程 
2. 8中 j 的期望值岀发，他们注意到其对某个 x 变量的偏导 
可以写作 [s: : 
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" E(>，) $(,) 哗 > >0) )+E(,|,> 0) ㈣ （Z) 


Sx , 


djC , 


^JC } / 
[ 2 . 21 ] 


即： 


$(z) X [i, 


1 一. 


今 (z) 


’ <f>(z) 


| £ ， P - ! - a 


<j>(z) 

i>(z) 


X <f>(z) 


ft 


[ 2 . 22 ] 


他们指出， Tobn 偏导形式中重要的一点，即 j 的总变化量可 
以被分解为两 部分： 一是删截阈值之上的观测值的变化，以 
处于阈值之上的概车加权（方程 2.22 中的第一部 分）； 二是 
此项概率的变化.并以其观测值的期望加权。这使得 Tobit 
效应的分解成为吋能。在奢侈品洎费的例子中，我们可以将 
每一个解释变量的效应分解为两项“次效应”:首先是在家庭 
有奢侈品/肖费的前提下，解释变量对消费额的 影响； 其次是 
解释变量对具有奢侈品/肖费的概率的影响。使用模拟数据， 
我们可以使用样本的均值计算麦克唐纳德和莫非特的分 
解式，得出以下 结果： £( 30 对 x 的导数等于 $( x , = 
0.45513), 乘以趴= 2. 125), 则等于 1. 278。这可以分解为 
0.532, 即由$计算的 £( jl „ v >0) 的 变化； 以及 0. 746, 即由 
E(y j >0) 的均值计算的超过阈值的概车的变化。因而在 
此例中概车的变化比均值的变化更显著，占 j 的总变化的 
58%。感兴趣的读者可以参见麦克唐纳德和莫非特的论文 
(McDonald Moffit , 1980) ， 其中列举了该分解方法的几项 
实际运用。 
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第6节 | 一个实际例子 


霍诺汉和诺兰 （Honohan &. Nolan , 1993) 运用 Tobit 模 
型研究爱尔兰家庭总财富中金融资产的份额。其样本包含 
3089户家庭，其中2121户有金融资产（如股票、债券、储蓄）。 
他们用家庭总资产（爱尔兰镑）、家庭年收人、家庭位置（城 
市或农村，以虚拟变量进人模型），家庭户主性别（虚拟变 
量.若户主为男性则取值为1 ) •户主是否专业技术雇员，以 
及户主是否自雇佣人员来解释家庭资产中的金融资产比 
例。其中，家庭总资产被看做二次项.因而其平方也被加入 
模型。表 2. 3是对3089户家庭分别拟合 OLS 和 Tobit 模型 
得到的结果。 

最令人惊讶的是， OLS 回归中家庭总资产及其平方的系 
数皆为负数.表明金融资产份额随家庭总资产的增加而减 
少。然而，在 Tobn 模型中此效应消失，两项解释变量的系数 
在统计上都不显著——这项发现相对更合理。相反，在 Tobit 
模型中.收人和专业技术雇员的影响更显著。所有家庭中相 
对较低的金融资产份额（占总资产的8%),与房屋资产（占总 
资产的55%)和农场（25%)的普及形成了鲜明对比 = 结果显 
示： 仅仅那些可支配收人相对较高的家庭才会选择投资金融 
资产。 
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表 2.3 家庭金融资产比例的影响因素(括号中为 f 值) 



方 

法 

日艾里 

OLS 

Tobit 

常数项 

6.26(3.3) 

一 7. 47(2:8) 

家庭总资产 a 

-0. 69(6.0) 

-0. 18(1. 1) 

家庭总资产平方 

一 0. 003(2. 5) 

0. 003(1. 6) 

家庭收人 1 " 

0. 006(2. 5) 

0.016(5.3) 

城市 

6. 14(5.9) 

7. 35(5. 1) 

男性户主 

4.09(3.0) 

3.71(2.0) 

专业技术雇员 

2. 92(2. 1) 

6. 20(3. 3) 

自雇佣者 

~A. 56(2. 3) 

-4.87(1.9) 


注: a . 单位是1万爱尔 兰镑； 

b. 家庭总的年收人.单位为 100 爱尔兰镑。 
资料来源： Honohan Nolan( 1993:83 )。 


表 2. 3中 Tobit 模型的系数应联系潜在变量进行解释， 
它表示家庭投资金融资产的倾向或能力。因此，收人的系数 
0.016 表示家庭收人一个单位的变化对其金融资产投资选择 
的影响。而该变化对实际的金融资产份额观测值的影响则 
由方程 2. 20 c 给出，它取决于其他系数以及家庭在其他变量 
上的取值。然而，若我们假设 < DU ) 等于有金融资产的观测 
概率 (2121/3089 = 0. 687), 则收人对金融资产份额的观测 
值的影响相对较小——等于 0. 011。这表示投资金融资产的 
概率为总体平均值的家庭，在收人发生一个单位变化时金融 
资产占有比例的期望变化。它仍然大于 OLS 的偏误及不一 
致估计，即0.⑻6。若使用 OLS 回归，则霍诺汉和诺兰会低 
估收人对家庭金融资产投资的影响[ 9] 。 
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Tobit 模型的缺点之一，是它假设同一列变量及参数既 
决定截断的概率，又决定观测因变量的期望值。本章我们将 
放松这一假设，使模型两步骤中的变量效应可以不同，且由 
不同的变量分别决定每一步骤。 

克拉格 ( Cmgg . 1971) 的模型弱化了 Tobit 模型的这一中 
心特征。对后者来说，潜在变量超过阈值 r 的概率表达 式为： 

pr (^,* > c ) = $ [3. la ] 

而 y 关于 x 的期望 值为： 

E ( y ； I X,) = x：p [3. lb ] 

克拉格模型保留了方程 3. lb , 但将方程 3. la 替 换为： 

pr ( 3 >* > c ) = [3. lc ] 

比较这两项.则影响概率的变量虽然保持不变，但方程 
的两部分(概率和条件期望）有了不同的系数。假设模型的 
两步骤相互独立，则这两部分系数可以分开估计。克拉格使 
用该模型分析汽车的购买行为，认为购买汽车与否的决定和 
购车花费的决定相互独立。芬恩和施密特 （Fm Schmidt , 
1984) 提供了另一个例子 ：建筑 物发生火灾的概率是楼龄的 
正函数，但火灾损失则可能是楼龄的负函数。 
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第1节 I 选择性样本模型 


选择性样本模型扩展了克拉格的模型，放松其对模型两 
步骤互相独立的假设。模型的基本思 路是: 结果变量^仅当 
另一变量 z 满足某种条件时才可被观测。所以此类模型的 
最简单形式将会包含两个 步骤： 在第一步中二分变量 〆 = 0 
或 1) 决定^是否可被观测.仅当 z = 1时 o •具备观 测值； 而 
第二步则是在^可被观测到的情况下估计其期望值。 

以正式形式表示， 则令： 

z" = w:0l 十 

z , = 0 若 z : < 0 
z , = 1 若 z ' > 0 

夕； =x' p + u, 

X = 乂 若 = 1 
乂无观测若 4 = 0 

用语言表达则是 :我们 观测到一个虚拟变量它是潜在连续 
变量^的显现.而潜在变量 〆 的独立误差项 e 服从正态分 
布，并且均值为0,方差为当 z = 1时我们可以观测到> 
而 . y 是第二个潜在变量 y 的显现，其独立正态分布误差项“ 
的均值为0,方差为 两个误差项的相关系数为 P 。 因此. 


[3. 2 aJ 


：3. 2 b ] 
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U 和 e 的联合分布是二元正态的。而两组解释变量 W 和 X 并不 
必须互不相交，在某些实际运用中，它们可能是同一组变量。 
若 P 被假设为0,则我们得到克拉格模型。 

在实际情况下，误差项之间的相关，通常被认为是由于 
方程 3. 2 a 和方程 3. 2 b 中共同省略了某一变量。例如我们关 
注脱离失业状态的人群的收人 = 模型的选择方程关注脱离 
失业状态的概率.而结果方程则以已脱离失业状态的人群的 
收人.或收人的转换函数为因变量。存在同时影响这两步的 
相关变量.例如“动机”。那些内在动机强烈的人更容易脱离 
失业状态，同时也更容易获得高收人。但由于其难以测量， 
所以不被纳人模型。这可能会导致两个误差之间的相关系 
数不为 0。 

但这种理解却是不正确的。相反.我们应将相关性看做 
模型内在的固有特质。换言之.不仅仅是对样本而言•即忽 
略测量 - r 和中的某个共同变量的情况.即使对总体的理 
论模型而言.我们依然假设 P 矣0。因此任何导致〃与 e 相关的 
因素都是内在不可测的。如伯克和雷所言 （Berk &. Ray . 
1982:383):“ 即使模型被完美拟合，两项误差仍具共变性。两 
个模型在本质上受到相同的随机干扰(或共变的随机干扰）。” 

选择性样本模型被大量用于许多社会科学研究中 
若考虑得足够深人，则在任何社会科学数据中都能发现潜在 
的样本选择过程。如成年人口的随机样本实际上仅仅是出 
现在抽样框中的成年人总体的随机样本•若抽样框为选民手 
册，则那些未注册选民资格的成年人将不被抽样。那么这是 


■X 原文为 〃•和 


澤者注 



第 3 章选择性样本模型和截断回归模型 


否意味着我们应该修正模型估计中的一切偏误呢？ 一般而 
言，回答是否定的，除非我们强烈怀疑未注册人口的非随机 
性。但在19世纪80年代晚期至90年代早期，这种情况确实 
存在。对选民统一征收人头税的举措，使不注册行为更容易 
发生在相对贫困的人群中。我们需要对样本选择过程是否 
具有影响作岀判断，而在某些情况下，我们可以对其忽略 
不计。 

方程 3. 2展示的结构问题在于 :使用 z = 1时的观测值 
简单对^进行 x 上的回归，所得到的 p 估计量不仅不一致， 
而且有偏(我们将在下文证明其原因）。再一次地，解决这一 
问题需采用两个步骤。第一步是估计个案被选择的概率，或 
者说是对虚拟变量=进行变量 w 上的估计。再在个案被选 
择的前提下，估计变量^的期望值。这是在变量 x 上对^的 
估计，并会修正: y 仅在 z = 1时才有观测值的问题。 

我们用赫克曼方法拟合该两步模型。使用所有个案， 
probit 模型估计 z = 1的概率，则得到系数 a 为： 

pr ( z , = 1) = < I >( w : ct ) 

由于 probk 模型中 a 和&不能分开估计，我们假设〜=1。 

在第二步中.我们估计 z = 1时，向量 x , 决定的^的条件 
期望值。该步骤的推演过程与 Tobit 模型类似（方程 2. 5 a 、 
方程 2. 5 b 及方程 2. 6)。 

E(y : | 2 = 1 ， x, ) = x: p+ £( m , I z , = 1 ) [3. 3 a ] 

x:P+£(m , 丨 e, > w:a) 

为计算方程 3. 3 a 中的 《 条件期望,我们引用另一统计理 
论的结果。该结果 说明： 二元分布中一个变量在以另一变量 
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被删截时.其期望 值为： 

E(U, I e, > W:a) = pa f a„ ” 奸广 : [3. 3b] 

<f>( w,a) 

该方程比 Tdnt 模型中的更复杂，因为此时我们不再计算 u 
本身超过某特定值的条件期望，而是根据另一变量 e 的取值 
来计算条件期望。将方程 3. 3b 代人方程 3. 3a ，可 得： 

E(y, I z = 1 ， x,) = x'p+pa,a„ [3. 3c] 

令 (w,a) 

为了估计这一模型，我们首先使用 probit 模型的结果， 

对2=1的子样本计算|(逆米尔斯比率，用 X ,表示）.然后对 

于相同的子样本，我们对^使用 X ,和估计的 X ,进行 （ )LS 
回归： 

£(_>', z = 1, x,) =x:p+0 又， [3.4] 

以得岀 p 和 e 的估计值。 e 是 p 乘以 a ,, 的估计量.由于 s ,. = 
1. 所以它等于《和^的协方差（^): 


0 = po„ = = cr,«. 

a, t a e 

讨论这些模型是为了获得 x 对^的效应的好的估计。 
所以如果我们简单地使用观测到的个案，并对 X 使用 x , 进 
行回归，则方程 3. 4表明 ：向量 p 的估计•一般是有偏的，因为 
变量 X 被省略了。因而样本选择性偏误问题在这个意义上 
等同于模型的错误设定问题.即忽略了某项自变量 3 然而在 
两种情况下 （) LS 参数 p 也是无 偏的： 
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1. 若 p = 0,则表示方程 3.4 中的0为0,因而其可 
化简为一般的 OLS 回归式。这是选择和结果过程相互 
独立的情况。 

2. 若参数 X 和某一 变量（如之间的相关系数 
为0,则该变量的 OLS 回归系数氏是无偏的。这遵循遗 
漏变量对 OLS 回归的影响。若遗漏变量为 X ，则参数氏 
的偏误等于 A 和 X 之间的相关系数乘以参数0。若相 
关系数为0,则偏误亦为0 ( 见 Johnston , 1972: 168一 
169； Kmenta , 1971:393—394)。 

在第2章讨论删截回归的两步骤模型时，我们已经说明 
结果模型中系数的标准误和 a 的估计都是不正确的。现在 
的模型同样如此。调整的估计相对容易。定义 S , = 
— X ,( z , + X .) , 其中 z , = w 丨 a 。 令&表示赫克曼方法第二步回 
归中~的错误估计，而 S 表示回归的离差平 方和： 

S = S (.y^—yi ) 2 

1 

其求和符号表示对所有 z = 1的个案求和。而的正确渐 
进估 计为： 

士 (S — 习 8,) [3. 5] 

其中 JV 是 2 = 1的样本个数，0是 X 的估计回归系数 
( Greene , 1990:744—745; Heckman , 1979:157)。 

标准误之所以错误，是由于两个原因 ：模型 3. 4是异方 
差的，并且使用 X 的估计值而非 X 本身，导致系数 p 的标准误 
需要考虑 X 的估计误差。而不幸的是误差标准误 ( OLS ) 既可 
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大于亦可小于其正确值，因此不能被用做真实标准误的下 
界。因此，卩和的正确协方差矩阵 v 为： 

V= aliX^'X' )- I [X- ， (I-p 2 A) X* 

+ p 2 (x*aw) s(w’ax* )](x*’x* r 1 [3. 6 ] 

参数佔计的标准误由矩阵 V 的对角线的平方根给出。 
此处 X '是矩阵 [ x : X ] ; W 是 probit 中解释变量的 矩阵; A 是对 

角线为次、其他为 0 的 矩阵； I 为单位 矩阵； 而; S 则是 Probh 
参数的渐进协方差矩阵。对 p 进行估计 ，有： 

八 

p =4 - [3. 7] 

因此，标准误的修正需要一些矩阵操作 ( Greene ，1981) ;而一 
些软件包如 LIMDEP ( Greene ，1991) 则可自动进行这类 
修正。 

模型也可使用最大似然估计，但我们需要定义似然函 
数。令《>, = 0( tt -： a ), 则所有 z = 0的个案对似然值的贡献 
为 1 — 0, ，而1的个案的贡 献为： 

X I z , = 1) [3. 8] 

a 

其中 a 是 y 在 z = 1 时的标准差，而令(: y , I z , = 1) 是 z = 1 
时 y 的条件密度函数。则方程 3. 8实为被选择概率乘以选 
择样本中3<的条件密度的表达式。我们需要做进一步的处 
理以使其更易操作。这超出了本书的范围，但雅美米亚 
( Amemiya , 1984:31— 32) 证明方程 3. 8可以写作： 
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w:a+ p 


- 




o u 


(1-pO 1 


x 

o u 






Ou 


[3.9] 


加人 z = 0 的个案的表达式，并取其对数形式,则对数似然函 
数为： 


L^lo g (l-^) + Slo g 7 ^-S^-x ； P ) 2 


+ D log O 

i 


w,a + p 


— x:P 、 


Ou 


(1- p -) 1 


[3. 10] 


似然函数的作用之一.是告诉我们在何种情况下模型可 
以得到简化。注意如果 p = 0,则方程 3. 10可以分为两个部 
分 :一个 是关于被选中概率的 probit ， 另一个则是对被选中子 
样本的期望 J 值的 0 LS 回归。而由于这两部分并不存在共 
同参数.所以它们可以分开估计。这表 明：若 6和《之间不存 
在残差相关性，则令简单 OLS 回归是合适的。因此，与其说 
3^仅对一个选择性样本存在观测值估计困难，倒不如说是由 
于选择的非随机性而导致估计困难。 

现在我们有三种可能的方法来分析选择性样本数 据:简 
单 OLS 回归、赫克曼两步估计以及最大似然估计。其中 
OLS 回归的估计量既有偏误，也不具有一致性(参见本书第2 
章）。而最大似然估计在满足合适条件的情况下（方程 3. 2 a 
和方程 3. 2 b ) 是渐进无偏和渐进正态分布的，且它会比两步 
估计更有效。鉴于以上原因.且由于最大似然估计程序的普 
及，它已成为该模型常用的拟合方法。 
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例如我们有与方程 3. 2 a 和方程 3. 2 b 所描述的结构相同 
的数据，在其总体中， 

y,' = 1 + 2x, + u, [3.11a] 

z: = 1 + 2w, + e, [3. lib] 

且有： 

z, = 0 若 z' < 0 
z, = 1 若 z: >0 
y , = y ： 若 2 , = l 
乂 无观测若 z , = o 

其中： 

a, - N(0, 1 )； a„ 〜 iV(0, 1.8 028); P _ = 0.8321 

设定: r 和 w 的相关系数为 0. 2425。从总体中抽取 2 ( X )0 个 
个案作为随机样本，用以估计参数 a (方程 3. 11 a 的截距项）、 
P 、 和 p 。 表 3. 1是使用各种方式得出的估计结果。 

表 3.1 选择性样本模型估计结 果:模 拟数据(括号中为标准误） 


方 法 


估计 

量 


Q 



Pue 


OLS 

1. 2316 

1. 9077 

1. 7738 


(z = 1 时） 

(0.0527) 

(0. 0537) 



赫克曼两步法 

1. 0262 

1. 9620 

1. 7252 

0. 7266 

(未修正） 

(0.0570) 

(0.0527) 



赫克曼两步法 

1.0262 

1. 9620 

1. 7870 

0. 7014 

(修正） 

(0. 0585) 

(0.0529) 



最大似然法 

1. 0035 

(0.0552) 

1. 9801 

(0.0522) 

1. 7889 

(0.0384) 

0. 7626 

(0. 0435) 
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表格的第一行是使用1173个有具体值的被选择个案 
进行 （) LS 回归的结果，其中不含有 P 的估计，因为此时它被 
假设为0。第二行和第三行都是赫克曼两步估计的结果，其 
中第三行提供了修正的标准误及估计的〜在这两行中 ， p 
都如方程 3. 7所示计算。最后一行则是最大似然估计。显 
而易见的，两步估计和最大似然估计皆给出了与总体真值相 
当接近的 a 和卩，且修正两步估计和最大似然方法都改善了 
A 和 P 的估计。然而最大似然估计提供了比两步模型更小 
的标准误。综合四个参数而言,最大似然法提供了最好的估 
计结果。在第5章，我们将详细讨论这是否为一种必然 
情况。 
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第2节 | 参数解释 


和 Tob . t 模型类似，该模型的参数估计量也可使用多种 
方法进行解释。 

1. 某个案被选择进人子样本 ® 的概率由模型1^01^部 
分的系数提供。在最大似然估计中，它们是与其他系数共同 
估 il 的。 

pr (_ r * > 0) = pr (: = 1) = O(w’a) [3. 12 a ] 
此概率对某个 w 变量 tq 的导数为(为方便起见省略下标 d : 

•( a : 1 ) = ^) ai [3. 12 b ] 

其中 g 表示 w ! a 的具体值。 

2. 潜在变量/的期望 值为： 

E ( y * I :r ) = x:p [3. 13 a ] 

而其对某一 x 变量 ^ 的导数即为在。庄育它并不是对观测 
值 J 的边际效应的估计，而是对总体期望值的边际效应的 
估计。 

3. 选择性样本中^的期望 值为： 




泽者下 
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E(y, | z = 1, x,) = xjp+ pa„ X [3. 14a] 
而: y 对 A 的导数是： 


dE(y I z = 1 ) 
3 x k 


= P * 


—a*p 叫 g 


士 ( g ) 


i >( g ) \ 

0(g) J 


[3. 14b] 


该方程与 Tobit 模型中的方程 2. 20 d 非常类似，唯一的不同 
是它包含系数 o *， 用以量化: r t 对被选择概率的影响。在 a 
既属于变量 w 也属于变量 x 时，该部分显然是相关项。.若 
情况并非如此，例如我们的模拟数据，则其对^的影响即为 
仏。若情况如此，则其对^的影响可分为两部 分:直 接影响 
氏，以及间接影响，它是由于^的变化同时改变着 X 的估计 
值而造成的。由于在方程 3. 14 b 中， pa Jg [ i >( g )/^( g )]~ 
[-),( g )/^( g )7 i 的值总是为正，因此两项效应的方向不同。 
所以若问题变量确实对选择概率和结果的期望值皆有正影 
响，则忽略导数的第二项会夸大其对^的影响。 

观测变量^的非条件期望可以由 Tobit 系数作出解释， 
但却不适合于选择性样本模型。在 Tobit 模型中，它包括所 
有固定在删截值上的 >但在选择性样本数据中，对于未被选 
择的个案，我们对^的值没有任何信息。 



蒯截、选择性样本及截断数据的回归樓型 


第3节 |一些实 际问题 


删截数据和选择性样本数据的分析方法并非不存在任 
何问题，在第5章我们会详细论述这一点。另外还有一些实 
际问题值得我们注意。首先是模型辨识问题。如前文所述， 
有些赫克曼两步估计在选择和结果机制的估计中均使用同 
一组解释变量，而另外一些估计则会在结果机制中使用包含 
所有选择机制解释变量的某组 变量。 在这种情况下，结果模 
型的参数仅仅由于 probit 模型的非线性特征才可辨识。若 
模型是线性的，则由于误差项之间的非零相关，模型不会被 
识别。在两步骤模型中这更为显而易见 :如果 所有的 w 变量 
同样出现在 x 中，而选择模型是线性的，则 X 的估计为部分 x 
变量的线性函数。但一般而言，依赖 probit 的非线性去进行 
模型辨识是不可靠的。更好的办法是对系数做某些限制，如 
规定选择步骤中的一个变量对结果变量并无影响。尽管我 
们需要根据分析中的概念模型来决定哪项限制更合适，但这 
会保证模型辨识的可能性。在实际例子中，依赖 probit 的非 
线性会使我们难以辨识估计参数，从而导致估计的不稳定 
性。例如在上面的模拟数据中，若以 x 代替方程 3. 11中的 
it ，, 则在修正两步骤估计中，参数 a , 和0之间的样本相关约 
为0.8。考察模型参数估计间的相关性是明智的。若模型辨 
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识依赖于 probit 的非线性，则这项考察就显得更为重要。 

两步骤模型的另一个问题是关于 P 的估计。由于它是 
两个值的比率，如方程 3. 7所示，则我们不能保证其一定落 
人一1到1的区间。我们必须仔细检验模型是否存在任何可 
能的错误设定问题。 



删截、选择性样本及截断数据的回归模型 


第4节 | 实证例子 


最大似然方法在选择性样本模型中的使用远远少于赫 
克曼两步骤方法。但哈根和帕克 （Hagan & Parker. 1985) 却 
给我们提供了一个相当好的例子。他们观察对白领工人罪 
犯判刑的严重程度(用11个数字表示不同的严重程度）的影 
响因素。其中选择性偏误 在于: 他们的样本包含所有被受理 
的嫌疑人，而其中仅有63%被宣告认罪并获刑。在是否被定 
罪的概率模型中.哈根和帕克的 probit 模型包含 10 个解释 
变量，其中仅有 3 个显著 （Hagan Parker. 1985: 加 9 )。 在 
结果方程中.他们使用了完全相同的解释变量。在不修正选 
择性偏误时，仅有“受理方式”这一变量显著.其对判刑严重 
程度有很强的正影响（系数为 3. 307, 标准误为 0. 402) 。 当在 
结果方程中加人逆米尔斯比率时，许多系数都改变了方向. 
但仍不显著。变量“受理方式”的系数基本不变（为 3. 452, 标 
准误为 0.443), 而逆米尔斯比率本身也不显著，其标准误与 
系数大小类似（为一 2. 905, 标准误为 2. 306 )。 加入逆米尔斯 
比率的最大影响是将常数项由 8. 63 改变为 5. 14 。 哈根和帕 
克由此得出 结论： “仅观察那些最后定罪的案件并不会使我 
们的数据分析产生偏误 （Hagan Parker. 1985:309)。” 

这类在结果方程中包含逆米尔斯比率.但却发现其影响 
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不大，或者逆米尔斯比率的系数（即《和6的协方差）本身就 
不显著的例子并不罕见 （Allison & Long , 1987； England 、 
Farkas、Kilboune &- Dou , 1988; Sanders &- Nee , 1987)。 相 
反的例子如对男女收人决定因素的研究 （ Tienda、Smith &- 
Ortiz , 1988), 其中逆米尔斯比率的估计非常显著。此处选 
择性偏误的出现是由于研究使用了美国人口普查1970年和 
1980年样本中工资或薪金收人不为0的子样本。在该研究 
中， probit 等式中包含15个解释变量，其中大部分都是显著 
的 (Tienda et al . , 1988:208)。而结果方程中包含12个解释 
变量，其中仅有5个与 probit 等式相同。无论男性或是女 
性，其逆米尔斯比率变量的参数估计都很显著，因而即使他 
们未给出修正后的结果方程，该研究仍 表明： 不对样本选择 
性偏误进行纠正，将会导致参数估计的偏误。 

比较这些研究，我们看到选择性偏误在判刑严重程度的 
模型中并不成为问题，而在收入模型中则确实需要解决。但 
这一相反的结论亦可能是因为后者 probit 模型中自变量的 
解释力度大于前者，或是因为在 Tienda 等人的研究中并不依 
赖于 probit 的非线性进行模型辨识。我们将在第5章详细 
讨论这一问题。 
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删截、选择性样本及截断数据的回归模型 


第5节 | 截断回归模型 


在删截数据和选择性样本数据中，虽然在不满足某种条 
件的情况下，我们缺乏个案的: y 值信息，但对于所有个案，我 
们都有关于解释变量的全面信息。因此我们称变量^本身 
是截断的，但其样本却分别是删截的或选择性的。相反，若 
在不满足条件的个案中，我们不仅缺少关于 . v 值的信息，同 
时也没有解释变量的信息，则样本是截断的。此时两步骤估 
计不再适合，因为我们缺少可用于分析第一步骤，或称选择步 
骤的数据。但我们仍然试图拟合结果模型，如下 所示： 

y ' = x;p + w , [3.15] 

其中 《〜 N (0, (/)。在我们的样本中，仅当/ o 时， 
我们可观测到 y == y )。若 >> 是收人，则 r 可能为收人的贫 
困线。 因而我们需要 估计： 

E ( y , I < c , x ,.) = E ( y ； \ u , < c — x ； p ) [3.16] 
使用附录 1 中的结果 ，则： 

£(),. 丨 7, <c, X,) = x ； p - a 

= x ； p - a X ,( m ) [3.17] 

r~x；p 


其中 W 


a 
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从方程 3. 17可知，若忽略截断，仅 对; y 以 X 做回归，则由 
于未考虑X ， p 的估计也是有偏的。然而，在前文的两步骤模 
型中，我们可以从 probit 模型得到逆米尔斯比率的估计值， 
并将其作为一个新的变量加人结果方 程中; 但现在我们却没 
有信息去做这样的估计。因而两步骤方法不再适合，可行的 
方法是最大似然估计。确实，该模型的对数似然简单地包含 
Tobit 对数似然中关于未删截个案的部分，我们有该部分的 
信息。未删截的个案对 Tobit 模型中对数似然函数的贡献可 
分为两 部分: 未删截的概率（现在我们不能估计），以及方程 
2. 14 c 中截断的正态分布的密度函数。这即为我们会使用的 
部分。我们用电 （ w ) 代替该式中的，，从而得到以下似 
然值： 


TT 1 ♦[(), 一 X;P )」 

0 屯 （ m ) 

[3. 18] 

由此.可得到对数似然 函数： 


L ^ 2l0g yw 2 2，'、 

x ； p ) ? 

- Siog ^(^) 

[3. 19] 


其中 r 不一定为常数。我们可以对其添加下角标；，以 
表明它在各个个案中可以不同。 

截断回归模型较之删截模型和选择性样本模型都更不 
常见。它通常被用于一些特殊种类的抽样结构。若我们仅 
对低收人家庭，或者贫困线以下家庭进行抽样，则我们会得 
到关于家庭收人的截断样本。豪斯曼与怀斯 （Hausman 
Wise , 1997) 的著作给出了这类研究的著名例子。 
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我们再次使用模拟数据，以举例说明该模型。假设父母 
社会经济地位与子女大学人学考试成绩^的关系方 程为： 

y , = 75 + 1_ 5: r , 十 m , [3. 20] 

其中 i 为父母社会经济地位， u 服从均值为0、标准差为 
25的正态分布。我们有350名大学生的样本数据，由于大学 
人学考试的最低录取分数线为125,因此该数据是左截断的。 
若忽略这项截断，直接对样本进行简单 OLS 回归，则我们得 
到 a、P 和 tj 的估计值分别为 102. 60(3. 36)、 1. 157(0. 05)、 
22. 545( 括号中为标准误)。这些估计量既有偏且不一致，并 
且它们的值皆与（模拟数据中的）总体真值有不小差距。然 
而，以等式 3. 19中的对数似然函数进行截断回归估计，则得 
出 a ，（3 和 a 的估计值分别为 72. 43(6. 36)、 1. 514(0. 08) 以 
及25_ 721(1. 294) ,都与其真值非常接近。 

截断回归模型中的卩估计量常用于偏导数解释。它表 
示当: r 的值发生微小变化时，变量 y 的期望值改变。由于方 
程 3. 20概括了总体，因而卩的解释并不只对超过阈值的那 
部分有效，而是适用于整体。 
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銅戴、选择性样本及截断数据的回归棋型 


删截模型和选择性样本模型相对容易扩展。例如我们 
考虑结果方程中的因变量为二分变量，而不再是连续变量的 
情况。假设我们希望研究离婚，由于样本中不是每个个体都 
曾结婚，因而有些个案并不具备离婚风险，从而构成潜在的 
选择性偏误。则选择模型处理一个二分变量，其取值分别表 
示曾结婚与未结婚。而结果模型则关注曾结婚的人群，考察 
其离婚的概率。另一项可能的模型扩展出现在结果的测量 
既存在于被选择样本，又存在于未被选择样本的情况。如对 
劳动力市场项目的评估研究，我们不仅有参与项目的人群的 
收入信息，也有未参与项目的人群的收人信息。 

类似的，我们可以使用更加精细的选择模型。在研究中 
我们常常会发现，社会过程往往是一系列的连续选择，而参 
与这一过程的世代在选择序列中人数逐渐减少。教育便是 
一例 :在教 育体系的任何一点都有学生退出，因而那些停留 
至最高阶段，即博士学位的，仅仅只是4岁或5岁人学时的 
世代中的很小一部分。同样的道理也适用于刑事司法 程序： 
在所有被逮捕的嫌疑人中，仅有一部分会被受理，而在被认 
定有罪的人中，也仅有一部分会被判监禁。若结果变量（如 
被判监禁的时间）岀现在这类过程的末端，则应使用一系列 
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连续的样本选择过程对其进行概念化，而最终的步骤或者是 
某删截变量，或者是选择性样本的结果变量。 

因变量的删截性和（或）样本选择性涉及的可能模型范 
围非常广泛。有时这些扩展模型可以用两步骤方法估计 
(Amemiya, 1979； Maddala, 1983:第6章及第8章），而有些 
则更为复杂。最大似然估计常常是更合适的方法，因为它具 
备一系列两步骤估计所没有的良好属性。然而，即使我们能 
够写出任何复杂的选择性样本及删截模型的对数似然函数， 
由于现实条件的限制，也很难对其参数进行估计。例如，我 
们可以写出一个三次或更高次的对数似然函数，但却找不到 
可用的程序。另外, ToHt 对数似然为严格凹函数，因此只有 
一个最大值，但对非标准化的似然函数来说，情况并不总是如 
此。它可能存在局部最大值，从而导致估计最后收敛至非最 
大似然的危险。在某些特殊情况下.对数似然函数会相对平 
坦.从而使得收敛过程缓慢，导致参数估计的不稳定性。因 
而，我们应当谨慎地使用这类方法，从不同起始值进行多元 
估计，从而避免局部最大值问题;还应小心参数估计剧烈变 
动或对数似然函数高度非单调的情况 (Eliasom 1994:45)。 

本章将集中讨论两类扩展模型。一类是选择过程中因 
变量有多个阈值的删截模型。我们将看到，此类模型证明了 
删截回归和其他重要计量模型的紧密联系，如研究定序因变 
量的定序 probit 模型。第二部分将处理一个我们在第1章 
中已初步接触过的问题，考虑选择过程和结果过程并不顺序 
发生的情况。它们被看做同时内生于某一特殊过程，是共同 
发生的。 
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删截、选择性样本及截断数据的回归模型 


第1节 I 多重阈值的选择过程 


在基本删截模型中 （ Tobn )， 仅存在一个阈值 o 它对所 
有个案都为同一常数。然而在第3章关于截断回归模型的 
论述中我们 看到: c 也可被看做在不同个案间变化的变量。 
这只会给对数似然函数带来微小的改变。而模型可以扩展 
为使用两个到多个阈值。例如，我们仅在变量落人上下极限 
之间时才吋观测到其具体值。日用品贸易 （ Maddala ， 1983： 
160 — 161) 就是这样一个例子，其价格变化的日常范围意味 
着我们只能观测到潜在变量 y 的双重截断部分。又如仅被 
允许在事先决定的范围(欧洲汇率机制）内变动的£车，若假 
设 ，为两 种货币间的潜在汇车.则我们仅能观测到其落人 
汇率限制中的部分。 

一般而言，我 们有： 


3 = X:P 丄 M [4. 1 = 

u 〜 V ( 0, a 2 ) 

并且： 

y = y 若 m < v* < ^ 

q 若 Cl > V ； 

\ r ： = 若 g [4. 2] 
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此时似然函数有三个部分。一是潜在变量在低阈值^之下 
的个案，其贡献为变量不超过该阈值的 概率; 二是超出高阈 
值 Q 的个案，其贡献为变量超过该上限的 概率; 其三是我们 
有 J 的具体取值的个案，其贡献等于落人阈值之间的概率乘 
以，的条件密度函数。再次使用附录1的结论，则潜在变量 
y 超过阈值的概 率为： 

prC ^," > c m ) = pr ( x : P + w , > c „) 

= pr («, > c m — x - p ) 



令： 

\ a ' 

以简化方程。在本章中，我们将一直使用该缩略形式。 

则/ > q 的概率为1 一 4>( c ), y ： < c 2 的概率为 
$( Q )。 这两项表达式都将出现在对数似然函数中。仅当 
y 在两个阈值之间时，我们可以确切观测 y 。则其概率为 
< c 2 的概率减去 X ’ < ^的概率 ，即： 

pr ( c , < y - < c 2 ) = < J >, ( c 2 ) — (Ci ) 

对这些个案，我们也需要知道/的条件密度函数，其分母同 
上述方程。因而在化简后，那些，可被精确观测的个案，其 
贡献与在简单 Tobit 模型中一样。因此，完整的对数似然函 
数为： 

L = Xllog^Cc,)]. 2]log[l —<E>,(c 2 )] 

- V , =C ； >, 

+ 2 log -- j ： — 〒 — X ) log ^ T ~ x : p ) 2 [4. 3] 

y:=y: V (7 - 
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劂截、选择性样本及截断数据的回归模型 


该对数似然函数与普通 Tobit 模型十分类似。我们可以根据 
模型计算四项有用的期望值。首先是 y 在两个阈值之间的 
条件 期望： 


E(y, I c! < 戈 < q ) = x；P + E ( M; I x;p) 


x! P + a u 


.$, ((T? ) — •!>, (fi ) _ 


[4. 4 a ] 


在前文汇率的例子中，该项表示在变动幅度之内汇率的条件 
期望值。该方程使用双重截断的随机正态分布变量的标准 
统计结果。为得出《的条件期望，我们回忆附录1中单边截 
断变量的条件期 望为： 


E(u I « x 'p) 

由于 Q —< p 大于 q — X ' P ， 于是： 

pr(^i —x’ « < c, — x’ p) 

=pr< ( 2 — X’ P) —pr(w x:P) 

=$ ( o ) —中 （q ) [4. 4 b ] 

这即为双重截断变量 u 的条件期望的分母，分子为： 
a {— <j>,(c/) — j> (ci)]} 

将分子分母组合，并重新整理，则得到方程 4. 4 a 中的后半 
部分。 

扩展方程 1. 1，可得到 J 的非条件 期望： 

E(y,) = pr(^i ^ c l )c l + pr (乂 = c z )c 2 

+ pr(c, < ) X E{y t I r, < ^ < c 2 ) 


用语言表达 则是: 观测值 ^ 的期望值等于其三类个案 G 等于 
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两个极限，或3-落人这两者之间）的条件期望以概率加权后 
的总和。在例子中它即为观测汇率的期望。 

由于该表达式的最后一部分与方程 4. 4a 相同，则化简 
后 可得： 

Eiy,) = ^(c,) Xc, + [1 - (c 2 )] X c •，+ [$, (o ) - $,(r,)] 

X x^p + a„[^,(fi) — <J>,(q)] [4. 4c] 

第三，潜在汇率 y 的期望值可由 x : p 简单得出，所以对 
潜在汇率, P 可以使用普通的偏导解释。最后，我们可以计算 
三项期望 概率: 超过低阈值的期望概率为1 一 < D ( r ,) ; 不超过 
高阈值的期望概率为而方程 4. 4b 则是落人两个阈值 
之间的期望概率。参数卩对这些概率的解释与普通 Tobit 模 
型相同(第2章)。 

尽管该模型有其本来的用处，但本书介绍它的主要原因 
却是展示其与社会科学研究者感兴趣的其他模型的紧密联 
系。当搜集连续变量数据（如收入）且最高收人和最低收人 
以区间出现时，我们可能用到上文描述的模型。然而，典型 
的状况是，在调查中我们并不会问被访者的具体收人，而是 
给其一系列收入范围并询问其所处的区间。只要对方程 4. 3 
做微小的改动，我们就可以用这类数据估计收人（见 Stew¬ 
art, 1983)。 此时我们不具备任何关于 y 的信息，我们仅知 
道被访者的收人大于某值且小于另一值。即， 


y, = 0 若 y' < C, 
v, = 1 若 < v,* < c 2 


M 若 x * < 
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其对数似然函数由观测到^的每个取值的概率构成。若我 
们假设潜在变量 y 与向量 x 间的关系符合方程 4 . ，则 

其对数似然函 数为： 

L = D lo g[^.( c 2) — A(Ci)] 

y= 1 y = 2 

+ … X ) log[l —^( Cm )] [4. 5] 

y=M 

向量 (3 表示 x 变量与潜在连续收人 变量， 之间的关系。 

若假设我们仅知样本中收人的等级序列，则模型可以进 
一步被扩展。通过改良方程 4. 5,可以导岀“定序 probit 模型” 
(McKelvey &- Zavoina , 1976； Maddala , 1983：46—49)。其中 
的阈值，或称截点，是我们需要估计的参数。由于我们不再有 
足够的信息去单独估计 ( J ， 所以定义= c m / a , m =\, 
iW , 以及 Y = PA ， 则： 

= 4>(c4 —x:.Y) 

若以该方程替换方程 4. 5 中的则为定序 probit 
模型的对数似然函数。此处需要估计的参数为7和之。若 
x 中包含截距，则有 一个心 的值不会得到估计。例如，我们 
有四个截点分成的五个区间，则 x 中的截距使我们只需估计 
其中的三个。而第一区间会是从一 m 到0,第二区间为0到 
忒，直至第五区间式到方程 4. 5中的模型显然可被广泛 
运用于连续变量未被准确测量而是以区间搜集信息的情况， 
因此定序 probit 模型在因变量是定序的，且其值实为某一潜 
在正态分布变量的显现时可被广泛运用。 
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第2节 | 内生性选择和结果 


试想我们有一个成年人样本，其中有些人有工作而有些 
人没有工作。我们希望建立工资与变量^■之间关系的模型。 
样本总体 符合： 


log(rvage) = yj = x；P + u , [4. 6] 

我们对 《 做常规性假设——即服从均值为 0 方差为 cf! 
的正态分布，并假设样本个案相互独立。仅当个体有工作 
时，我们观测到 K 。假设所有个体都有其保留性工资 <，仅 
当其收人高于或等于< 时，他们才会接受工作。 / 无法直 
接观测，但可以被 看做： 

v: =vv:a + e, [4. 7] 

我们对误差项 e 做常规假设，而 W 则是一组可观测的变量。 
假设 p(es M) # 0 。 

若个体有工作，则定义 2= 1 ，否则定义 2 = 0, 以及： 
y , = y - 若 z , = 1 
y 无观测若 Z , = 0 

当使用两步骤方法进行估计时，我们会遇到一些困难。 


由于: 



删截、选择性样本及截断数据的回归模型 


pr(z, = 1) = pr(^* > v* ) = pr(y- — w-a> e t ) 

[ 4 . 8 ] 

则是否接受工作的决定取决于潜在工资 y [12] ，因而我们不 
能将接受工作看做发生在获得工资之前的选择过程。相反， 
这两个步骤是同时发生的。 

模型的似然函数包括两个部分。那些不工作的个案，其 
贡献为概率/ > y ，即： 

pr(v〗' > y' ) = pr(w-a+e, > x-p+u,) 

= pr(e, — e, > x- p — w-a) [ 4 . 9 ] 

由于 (? 一 M 服从正态分布，且其方 差为： 
a = al a", — 2a„ 

则方程 4. 9 可 写作： 

o(^~ W：<l ) [ 4 . 10 ] 

而似然函数的另一个部分则是关于那些有工作的个案。 
或者说满足方程 4. 8中的要求的个案。在之前讨论选择性 
样本的似然函数时，我们注意到，可观测 _ V 的贡献为其被选 
择的概率乘以条件密度函数。此处的情况稍微复杂一些。 
我们需要看《和《的二元密度函数.且 f 在: V ,‘ 一 W ^ C [处截断, 
即： 


I fiu ,. e t ) [4. 11] 


其中 fia, « 表示两个正态随机分布变量和6的二元密度 
函数。方程 4 . 11表明，我们现在关注的是当〃 <夂 - w：a 
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时 ，〃和 e 的联合密度函数。而该条件则恰好是方程 4. 8中 
说明的，将有观测工资与没有观测工资的人群分开之条件。 

马代拉 （ Maddala , 1983: 76) 将这部分似然函数化简 
得到： 




log 


\/2Tzat 

l0g$ (^z 


(乂 一 x:p ) 2 


: y, — w,a —% (: y, — x:p) 


[4. 12] 


其中 d 是 M 和 e 协方差的平方。 

完整的对数似然函数则是方程 4. 12( 所有有工作的个 
案)和方程 4. 8( 所有没有工作的个案）的加总。为了辨识模 
型， M 和 e 的相关系数必须为0，且必须存在一个变量，它在 x 
中但不在 w 中。 

尽管顺序两步模型在此处不再适用，但似然函数仍包含 
未选择个案和被选择个案的部分。而其对数似然函数则与 
方程 3. 10中的基本选择性样本模型类似。其复杂性来源于 
我们处理了两个内生性的变量，其中一个为截断变量。自格 
朗纳 （ Gronau , 1974) 、刘易斯 （ Lewis, 1974) 和赫克曼 （ Heck - 
man , 1974) 之后，使用这类对数似然函数的模型被扩展应用 
于劳动力供给问题。正如马代拉 ( Maddala ， 1983:200— 202) 
所言，它也可以被很容易地扩展至截断和样本选择性问题。 




应注意的问题 










i .* 被‘： ‘ 




ills isiiiiii 

漏 


























_ 


猶響:海: 






:::囊:猶: 

■■:■■- ： ■■ ■ ■ . . 

„ r>»-i / . - ' , -- 

• ： '■ ' ' - 













76 


明截、选择性样本及截断数据的回归模型 


本书的前几章介绍了删截、选择性样本和截断数据模 
型。毫无疑问，自20世纪70年代末期以来，这些模型在社 
会科学研究中就开始被广泛地使用。然而近年来却有证据 
表明这些方法本身亦存在问题，尤其是赫克曼模型，受到了 
大量的批评。尽管许多方面仍无定论,但显然，我们在使用 
这类模型时应更加谨慎——如标题所言，本章讨论删截模型 
和选择性样本模型在实际应用中的三个重要问题。首先是 
其对分布假设的敏 感性; 其次是赫克曼模型的辨识 问题; 最 
后我们将讨论评估研究中选择性样本模型的 运用。 我们将 
不仅说明方法存在的问题，而且提供解决问题的建议或可使 
用的替代性方法。最后本章将以一系列指导作为小结，我们 
希望其可避免这些可能的缺陷。 



第 5 章应注意的问题 


第1节 I 对分布假设的敏感性 


异方差 

异方差或者误差项的非常数方差问题，在删截模型和选 
择性样本模型中比在 OLS 回归中更重要。这是因为在异方 
差的情况下，最小二乘估计量虽然不是有效的，但却具有一 
致性。而删截模型和选择性样本模型的估计量却既不一致 
也不有效 ( Amemiya ， 1984:23)。其解决办法是“对异方差的 
本质做一些合理假设” ( Maddala , 1983:179)[ 13 :。换言之，我 
们根据异方差的函数形式，将对数似然中的 a 写为可观测的 
变量的函数。伊莱亚森展示了在异方差时误差项的正态分 
布假设 （ Eliason ， 1993: 28—34) 和截断正态分布假设 （ Elias - 
on , 1993:63—66) 下可做的调整。马代拉 （ Maddala , 1983： 
180) 则建议对 Tobit 模型中的误差项 假设： 
a, = (y + Sz ,) 2 

此时 z 为向量 x 中的部分或所有变量，而 7 和 S 则是需要估 
计的参数。我们用其替换方程 2. 15和0»,表达式中的 a 。 

非正态性 


样本选择偏误方法本身（与其具体执行过程相区别）并 



删截、 选择性样本及截断数据的回归模型 


不对分布进行严格假设（见 Heckman Robb , 1986: 57 一 
63)。例如赫克曼原始两步估计量只要求 （1) 选择式的误差 
服从正态 分布； 以及 （2) 结果变量条件期望等式的误差是选 
择等式误差的线性形式 (Olsem 1980:1817)。然而这些标准 
方法的执行过程（两步骤方法或最大似然估计法）却需要对 
结果方程误差以及两误差联合分布（如二元正态分布）进行 
假设。 

删截模型和样本选择模型中的非正态性具有极大的潜 
在危害。尽管 OLS 估计量在非正态条件下也是一致的，但选 
择性样本模型和删截模型的估计量则不是。戈德堡 （ Gold - 
berger , 1983:79) 测量了 Tobk 模型中一系列对称但非正态 
的误差分布，得岀的结论是 :“一 般样本选择性偏误的修正模 
型通常会对偏离正态性十分敏感。”更一般的，选择性样本偏 
误修正方法的研究者奥尔森 （ Olsen , 1982) 指出 ：“最 大似然 
估计方法由于对回归残差的总体分布假设过于敏感，因而不 
具备优良特质。” 

既然非正态性是潜在的如此严重的问题，那我们应如何 
对其进行处理呢？主要有两种办 法:若 我们有依据为误差项 
假设一个已知的参数分布，则我们可将该假设分布纳人模 
型; 而若误差分布是完全不可知的，则我们应使用半参数方 
法。下面我们分别介绍两种 方法。 

关于非正态误差的最直接的参数方法，是最大似然估计 
法，其中我们直接定义误差项的分布。马代拉 （ Maddala . 
1983:187— 190) 列举了非正态 Tobh 模型的两个简单例子。 
其一是假设误差项服从对数正态分布。此时模型的对数似 
然函数与一般模型的大致相同•我们只需用 ln (_ y ) 替换 . v , 并 
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使用阈值的对数形式即可。其二是假设 U 为指数分布，其密 
度函数和分布函数皆为非常简单的形式。 Tobit 模型由于只 
涉及单变量分布，因而相对较易扩展到非正态分布的形式。 
正如格林所指出的 （ Greene , 1991: 588) ，生存分析中使用的 
加速失效时间模型实为删截回归模型，但其通常具有非正态 
的误差分布。典型的分布有韦氏分布 ( Weihdl )、 对数逻辑斯 
蒂分布 （ log - logistic) 、 Gompertz 分布等 ( Allison , 1984)，因而 
软件可以较容易地估计非正态 Tobit 模型。 

对于最大似然选择性样本模型来说，情况则更为复杂， 
因为我们需处理选择式和结果式两项误差的二元分布。李 
( Lee , 1993) 给出了一个操作性的例子。原始赫克曼 Probit - 
ULS 方法要求选择等式误差的正态性。然而在奥尔森 （ Ols ¬ 
en . 1980) 早期工作的基础上，李 （ Lee , 1983) 却说明更为灵 
活的两步骤方法可以估计非正态误差模型(尽管我们需要对 
其分布做出具体假设）。他的模型相当 简单： 先在假设误差 
项分布的基础上计算选择模型，然后计算预测概率，接着找 
出这些预测概率的逆正态分布函数(也就是计算代人 0( •) 
能得到预测概率的值 = ],), 最后用计算正态密度和 
分布函数，以估计入,。 

这在选择方程的结果多于两类时——即在所谓的多项 
选择模型中，也非常有用。例如，假设我们关注四类学校中 
学生的数学成绩。我们拟合一个选择方程来解决这一问 
题，其中包含四个学校类别= 1，…，4)，而在结果方程 
中，学生的数学成绩作为因变量是在四类学校中被分别观 
测的。李的方法是使用多元 logit 回归来估计学校的选择问 
题.即计算学生进入每一学校的概率，再用其计算 w = 
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1，…，4。这些数值会被用于估计相应的入„，，然后被用于四 
项 OLS 回归 [14] 。 

事实上，李 （ Lee , 1983) 的方法比我们的介绍更具一般 
性。它不仅允许选择等式误差 G 同样也允许结果方程误差《 
为非正态分布(但需为已知分布）。此时逆正态分布函数能 
将 £ 和^转化为正态的，并使其联合分布为二元正态的。李 
( Lee , 1983) 和马代拉 （ Maddala ， 1983： 272—275) 对此进行 
了详细的论述。这使我们可以使用最大似然估计法。由一 
般选择方程和结果方程 出发： 

z' = w-a + e, 

若 《,• < 0 ，则 z , = 0 
若 z ,' > 0，则 z , = 1 
yj = x'P+m, 

若 z , = 1 ，则: y , = / 

若 z , = 0 ，则 3>, 无观测 

假设^和《的相关系数为 p 。 现在假设《的密度函数为 gU ) 
而累积分布函数为 G ( W ) ，则 e 的累积分布函数为 F ( e )。 F 和 
G 不服从正态分布。若设标准正态分布函数的逆函数为 
①一 1 ，则我们引人新变量 〆 ，使： 

e， = [F(e)] 

这即为我们上文描述的转化过程 ：找到 一个值，使其代人标 
准正态分布函数时可得到概率值 F ( e )。 对 u 进行同样的转 
化 ，有： 


[5. la] 


[5. lb] 


= \ Giu) \ 
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，和 〆 皆为标准正态分布。而其二元分布 

BiO ^ LFie ^, ®-'[G(«)], p} 

由于 〆 和 〆 的正态性，会服从二元正态分布。我们简单地 
将上述表达式代入方程 3. 10的选择性样本模型，则用最大 
似然法估计方程 5. la 和方程 5. lb ， 有： 


L = X]log[l —F(w:a)] + ^]log{g[(：y,—x:p)/(j„]} 
0 1 


+ 


I ： logoff 


[Rw:a)] + p{O— 1 [G(^, -x；p)/a u ]}l 

(1-p 2 ) 12 - 


[5.2] 


此处 F(Va) 是 e 小于 w,'a 的概率，而 G (: y—x:p)/(j„ 则是 u 小 
于的概率。最后一部分中的 3 T 1 计算当代人 
0 ( - ) 可以得到相同概率的标准正态分布的值。若6和《为 
正态分布，则可化简为方程 3. 10,因为 g 是正态密度函数， F 
和边相同，最后方程 5.2 中的 F 和 G 都能与抵消。实际 
上，该方法可以非常灵活的转化非正态分布的误差项，使其 
可用于删截模型和选择性样本模型的一般方法(尽管在一些 
情况下，我们需要引人一些附加的限制条件，使得模型估计 
的误差处于我们所选择的特殊分布允许的范围内）。 

若误差项的分布是未知的，则我们应使用半参数模型。 
在赫克曼方法中，我们曾估计向量《，并用其找出这样一个表 
达式： 


£( 结果等式误差I选择等式误差> w：a) 

纽维尔、鲍威尔和沃克 （ Newey、Powell Walker , 1990) 说 
明了两种估计 《 x 的半参数方法，以及两种以 a 的估计值为基 
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础，在结果方程中估计卩的半参数方法。然而如马代拉 
( Maddala ，1992:56 ) 所言，这些非参数方法还比较初步，其实 
际运用仍较罕见。所以本书不再赘述这些估计量的推导过 
程，有兴趣的读者请参考纽威等人的著作 （Newey et al . ， 
1990)。科斯莱特 ( Coslett ，1991) 也给出了选择性样本模型 
的一种非参数估计;鲍威尔 （ Powell , 1984 ) 则提供了非参数 
估计的 Tobk 模型。而李则论述了删截模型和选择性样本模 
型的一般非参数估计 [15] 。 

鉴于这些模型的一般估计量对偏离正态性和同方差的 
敏感性，因而对这些假设的检验显然是非常有必要的。学者 
们提供了一些这方面的方法（如 Lee Maddala , 1985)。有 
一类对正态性和同方差的偏离检验是针对特定假设进行的。 
切希尔和艾利时 (Chesher Irish , 1987) 提供了一组非常有 
用的检验方法。而这些检验方法并不需要设定异方差和非 
正态分布的具体形式。例如它们只是根据偏度和峰度来建 
立标准化的正态性检验，在删截模型中，由于潜在变量只能 
被部分地观测，因而对标准化残差项的检验也不是以直接观 
测为基础的。 

对其方法感兴趣的读者可以参见其论文。其基本思路 
是检验潜在变量，的标准化(均值为0、标准差为 1) 回归残 
差的估计分布矩，并与正态分布假设下其应有的值，也就是 
标准正态分布的矩相比较。该检验主要有三 步：首 先是在 
，仅被部分观测的基础上计算标准化 残差; 然后是计算这些 
残差与正态分布残差的矩的差值（这些值被称为矩残差，最 
多会有四项矩 :均值 、方差、偏度和峰 度）； 最后进行一项评分 
检验，以考察该差值的显著性，或者更准确地说，是检验残差 
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的观测分布与正态性假设下的分布之无差别的零假设。同 
方差检验的方法也遵循类似的原理。 

这些假设可以被简化为一个简单回归，因而很容易计 
算。在同方差检验中，前两项“矩残差”是必要的，而在正态 
性检验中，我们则需要计算总的四项。它只涉及观测值 > "、解 
释变量以及 P 和 a 的估计量，所以并不复杂(在附录2中我们 
介绍了计算方法）。这些矩残差和解释变量一起构成新矩阵 
R 。 我们用该矩阵对向量一进行回归，则被解释的平方和可 
用于检验零假设（同方差或正态性）。我们只需做一个简单 
的卡方检验即可。附录2详细解释了该方法。博拉、嘉可和 
李 ( Bera、Jarque &- Lee , 1984) ， 以及戴维森和麦克卡农 ( Da ¬ 
vidson Mackinnon ) 也提供了正态性检验的类似方法。 



删截、选择性样本及截断数据的回归模型 


第2节 I 模型辨识和稳健性 


许多学者（如 Little, 1985) 都意识到在原始 probit-OLS 
模型中依赖非线性来完成模型辨识可能会带来的问题。如 
伯克和雷指出的一系列由此产生的问题： 

典型的结果是高方差的估计量 = 而真实（结果）等 
式中风险率指标与其他回归量之间的多重共线性也是 
一个常见的问题……最后，若无法解释选择过程中的大 
部分方差……则风险率（逆米尔斯比率）的方差将会很 

-J . (这将导致）真实等式中与截距项的高度相关 

(Berk &- Ray, 1982:386 )。 

杜安、曼宁、莫里斯和 纽豪斯 （ Duan 、 Manning、Morris 
&. Newhouse, 1984:288) 给出了多重共线性的 一 个例子。他 
们发现逆米尔斯比率和结果方程中的其他解释变量间的多 
元相关平方记在样本总数 9 中超过了 0.8 。 而在对哈根和 
帕克 （Hagan Parker) 的讨论中，我们注意到逆米尔斯比率 
系数的标准误已经接近于其系数本身，因而其对结论最明确 
的影响就是将常数项降低至错误值的约 2/3 。 

斯托增伯格和雷利 （Stolzenberg Relies ， 1990) 的蒙特 
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卡罗研究.发现即使在选择式误差和结果式误差的二元正态 
分布成立时，赫克曼两步骤方法也存在严重的问题。使用严 
重删截的 ( 90% )500 个模拟个案，他们发现 :赫 克曼方法在相 
关参数估计的偏误和准确性上与 OLS 回归一般无异。他们 
由此推断，赫克曼方法在测量和修正样本选择性偏误中作用 
微小，不宜被经常使用。 

斯托增伯格和雷利的文章对使用赫克曼方法修正样本 
选择性偏误的倾向敲响了警钟（见 Land McCall , 1993)。 
然而其结论与尼尔森 ( Nelson ，1984) 的早期蒙特卡罗研究大 
不相同。后者认为赫克曼两步骤技术的问题可以很容易 
澄清。 

尼尔森的文章比较 OLS 冋归.赫克曼两步骤方法.以及 
最大似然估计法在修正选择性样本偏误中的作用。他特别 
关注各方法的效率(参数估计量的方差），提出了与伯克和雷 
(Berk Ray , 1982) 及其他许多研究者相同的问题。在误差 
服从二元正态分布时，以下三项重要因素会影响赫克曼估计 
量的表现： 

1. 误差项 e 和 m 之间的相关系数 p ; 

2. 两列解释变量 x 和 w 之间的相关性； 

3. 样本删截或选择的程度 ( z = 1 的个案比例）。 

无论是尼尔森的研究，还是斯托增伯格和雷利的研究， 
都是将第三个因素固定•而使另外两个因素在各个模拟之间 
变化。在后者的研究中.样本的极大选择性（仅有10%的样 
本被选择）使 OLS 优于两步骤方法.因为在其他条件均等的 
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情况下，它使后者的估计量在很大程度上失效。这是由于两 
步骤模型估计量的效率取决于用于修正样本选择性偏误的 
逆米尔斯比率々与结果方程中的其他解释变量的相关程度。 
在杜安等人 (Duan et al . ， 1984) 的研究中，这项相关被表示 
为记，即 X ,对 X, 的判定回归系数。在因素三，即删截或样本 
选择的程度一定时， i ? 2 的大小取决于因素二。 

假设 x 和 w —致，则我们依赖 probit 的非线性来辨识结 
果模型， X ,是这些变量的非线性函数。但如果这些变量有限 
(即删截或样本选择很严重的情况下），则其线性函数会逐渐 
逼近非线性的 X ,。换句话说，当样本选择性问题越加严重 
时，米尔斯比率会逐渐成为其构成变量的线性函数。因此， 
在 x 和 w 的相关性确定时，圮随样本选择性的极端化而增 
加。这会损害两步骤方法(及最大似然法)相对于 OLS (不适 
用米尔斯比率)的效率。 

第3章讲到，在以下任何一个条件得到满足时， OLS 估 
计量是无偏的：（1)误差相关性 P 为 0;(2 U , 与结果方程中的 
解释变量不相关(尺 2 = 0)。 

若两项条件均不满足，则 p 或记的增加（取决于因素二 
和因素三）会导致 0 LS 系数偏误的增加 （ Nelson , 1984： 
193)。因此修正样本选择性偏误的需求更大。但是我们已 
经看到，任何非零的 i ? 2 都会导致两步骤模型(及最大似然估 
计)的效率的降低。因而广义看来这是一个两难的选 择：两 
步骤估计量是一致的，而 OLS 估计则 不是; 但前者的参数估 
计量的方差更大。这同样建议我们应该谨慎地使用两步骤 
方法来估计 Tobit 模型，尤其是当两个等式中的解释变量相 
同的时候。表 2. 2说明相对于 0 LS 和最大似然估计，两步骤 
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Tobit 模型的方差更大。 

但斯托增伯格和雷利 （Stolzenberg &■ Relies, 1990) 关注 
这些估计量的效率而非准确性。由于 p 关 0 且 i? 2 关 0,这里 
不存在任何无偏估计，尽管两步骤估计量具有一致性。一致 
性是一种大样本特征，而斯托增伯格和雷利仅使用500个个 
案的样本，而且其删截率(未选择率)达到90%，则其结果等 
式实际上只使用了 50个个案。在这些条件下，我们当然不 
指望两步骤模型估计量有多么准确。但斯托增伯格和雷利 
论文中的表4还说明，只要 p 或者单个 _r 与 W 之间的相关系 
数，两项之某一项超过 0. 5,则两步骤模型的偏误小于 OLS 
模型。在更大样本或不如此严重的删截数据情况下，模型的 
相对表现还会更加明显。 

两步骤和最大似然方法的估计量的效率在 p 很低而 R 2 
很高时最小。总的来说，最大似然估计的 P 和 p 比两步骤模 
型的估计量要更有效率。特别的， “0LS 偏误最大之条件，恰 
好也是最大似然估计对两步骤估计的优越性最大之条件” 
(Nelson, 1984:195)。尽管最大似然法比 OLS 估计量的方 
差要大，但其偏差一般而言却较小（除非是记特别大的情 
况，如>0.9)。因此，只要 OLS 有偏(且不一致），则最大似然 
估计就优于 0LS 估计和两步骤估计。 
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第3节 | 评估研究中的样本选择模型 


在劳动力市场项目的评估研究中，选择性样本模型受到 
了最多的批评 （Fraker &• Maynard . 1987； Lalonde , 1986)。 
这是因为此类项目很少使用随机分配，因而用以纠正选择性 
偏误的非实验估计量不能捕捉真实的（更准确地讲，是以随 
机分配为基础的)项目效应。这要求使用随机对照实验来评 
估此类项目 （Ashenfelter & Card , 1985; Barnow , 198 7 )。 在 
许多文章中，赫克曼都提到非试验方法的缺陷是由于选择性 
样本模型的错误使用造成 的:这 或者是由于对样本本质的错 
误认识，或者是因为纳入了不必要的或过于严格的假设。在 
再分析中，赫克曼、霍兹和戴伯斯 （ Heckman、Hotz &- Dabos , 
1987) 以及赫克曼和霍兹 （Heckman Hotz , 1989) 的文章都 
证明 :这些 非实验方法确实能给出与随机分配方法非常近似 
的结果。 

由这部分观点看来，这一命题应关注以下两点 ：首先 ，评 
估研究及其他领域内的选择性偏误修正模型绝不止现有的 
这些 （Heckman Robb , 1986； Little &- Rubin , 1987); 其 
次，合适的方法应由数据和我们观察到的现象所蕴含的社会 
过程来决定(例如受训者怎样被选择）。我们举两个例子。 

若我们以考试成绩来测量两所学校 A 和 B 的效率 ； 若 
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数据为截面数据，则用最大似然法估计选择（学生进人哪类 
学校)和结果(进人某类学校后的考试成绩)方程是较合适的 
方法。若我们的数据给出两个时点的考试成绩，即学生在进 
人学校 A 或学校 B 之前的成绩以及在校内待过某段时间之 
后的成绩，则要修正选择性偏误，首先应写出第 ； 位学生在第 
t 次考试中的成 绩为： 

y« = pxj + yz, +Ui，Ui = + v t 

而学生参与的选择方程为： 

z, ― aw, + e, , e, = + e, 

此处 2 = 1表示学生进人学校 A ， 而 z = 0则表示学生进人 
学校 B ， 对于/= 1的所有学生， 2 =0。由于共同因素^的存 
在，因而出现了样本选择性偏误。假设％的均值为0,且方差 
为常数，且与 e 和的所有值独立。则取第一个差 
异•可以消去6和《之间的 相关： 

y,-i ~ j 1 ,! = P ( x , 2 — \ n ) + yz , + u , 2 — u n 
= p( x, 2 — x,,) + yz, + v , 2 — v,i 

则方程中的误差项与其他所有解释变量独立，其均值为0,具 
有常数方差。因此.我们用两时点上解释变量的差异以及学 
校类型的虚拟变量对两时点的考试成绩差异进行回归。7即 
表示在一类学校、而不是另一类学校的效应。很显然，我们 
可将5看做遗漏变量，它是各学生特有的、不随时间变化的 
特质，既影响其学校选择，亦影响其考试成绩。当我们取考 
试成绩随时间变化的值时.这项效应消失了。赫克曼和霍兹 
(Heckman Hotz . 1989) 基于对有观测的时点数目的考虑 
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扩展了该模型。 

另一处理贯穿本书的这类截面数据的办法为杜宾 （ Ru ¬ 
bin , 1977) 的混合模型方法（参见 Land & McCall , 1993)。 
杜宾在处理因变量的无填答问题时引人该方法，而由于无填 
答可以是多种样本选择性问题，因而该方法的应用范围理论 
上更广。杜宾用贝叶斯方法，在假设已选子样本和未选子样 
本之因变量分布参数的关系基础上，计算结果估计中可能的 
误差。换言之，研究者首先猜测或假设因变量在样本删截部 
分的分布，联合其对被选样本中因变量分布的认识，则对总 
体样本的因变量分布有所了解。该方法检测总体样本分布 
对未选择样本分布假设的敏感性。正如兰德和麦克科尔 
(Und &• McC ' all . 1993:302) 所指出的，不同于选择偏误模型 
对选择过程的假设和拟合，相反的，混合模型方法对因变量 
的未观测分布进行假设。 

这些假设被纳入混合模型，而解释变量的完全观测信息 
可用于形塑这些假设。根据每个假设，可计算一个贝叶斯预 
测概率区间(类似于置信区间 ） ，该类区间是广义上的一般置 
信区间。但假设所基于的预设信息也有可能并不清楚。在 
兰德和麦克科尔的例子中，假设未填答样本的均值与填答样 
本相同，但其方差更大。若我们有强烈的预设信息表明这些 
假设，或者结果对不同假设具有强烈的敏感性，则这些假设 
有很大的价值。但严重的问题在于 :我们 并不总是有这样强 
烈的预设信息，而结果也并不总对不同假设敏感。这也说 
明，该模型只能用于测量未填答或选择性偏误的严重程度， 
但并不能对其进行修正。 
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第4节 | _截模型和选择性样本 
模型的使用指南 


我们将大略说明删截模型和选择性样本模型使用中应 
注意的事项。首先应考虑解决问题的适合模型。若数据还 
未收集，则我们应考虑最小化选择性样本问题。如在评估研 
究中，对控制组和实验组的参与者采用随机分配的原则。若 
数据已经收集完毕，则我们应从数据允许的分析方法中选择 
最合适的那个。若为历时性数据，则可使用上文介绍的赫克 
曼和霍兹 （Heckman Hotz ，1989) 模型。若数据是截面的， 
则可使用第2章到第4章介绍的方法。 

样本规模是一个重要的问题。本书讨论的多个估计量 
的优良特质都与大样本相关，如果样本很小，那么我们必须 
承认这类方法并不适合。因此，在仅使用本书方法才可解决 
的重要问题的研究中，研究设计必须保证有大样本。 

若存在合适的大样本，且我们决定使用本书介绍的方 
法，则第一步应检验同方差和正态性。我们可以使用切希尔 
和艾利时 (Chesher Irish , 1987) 的方法，或使用其他的替 
代性方法 （Bera et al . ，1984； Davidson &• MacKinnon , 
1984)。 切希尔和艾利时详细介绍了在 Tobit 模型中怎样检 
验同方差和正态性，而我们可以将其扩展到选择性样本模 



92 


删截、选择性样本及截断数据的回归模型 


型.但这时我们将检验二元正态性，因而其扩展形式更复杂。 
但在选择性样本模型中.我们可使用其方法对每一步骤一- 
选择和结果——分开检验。在选择方程中检验正态性尤为 
重要。以 probit 独立估计该方程是使用切希尔和艾利时检 
验的最简单的方法。 

若不满足同方差，则有必要对方差假设一个函数形式。 
类似的.若误差项不是正态分布，则我们应为其假设一个分 
布•或使用半参数模型。而当这些假设被满足时•对于删截 
回归模型.则 Tobh 估计量是可接受的。但对于选择性样本 
模型，我们应该先用 probit 得岀逆米尔斯比率.再在结果等 
式中用解释变量对其进行回归。 若拓 接近于0.则结果方程 
可使用 （) LS 估计,但如果并非如此.则我们应使用最大似然 
法估计两步骤模型 t 若最大似然模型中的 p 接近于0,同样 
用 OLS 回归更合适。这是因为 （) LS 估计中的|3与最大似然 
估计值接近.但其方差更小（特别是在尺' 很大时 h 所以在 
选择性样本模型中.若记或 p 接近0，则使用 （) LS 方法； 否 
则使用最大似然法。若可以使用最大似然法•则两步骤模型 
不具备任何优势。 

最后一点是 ：怎样 判断应使用删截回归 （ Tobh ) 还是选择 
性样本模型？马代拉 （ Maddala , 1992: 54 ) 提出了该问题，并 
认为事实上 Tobn 模型在其大致所有的应用中都是不适合 
的，包括其最早的托宾的应用 ( Tobm , 1958)。他认为 . y 值本 
身的限制并不足以构成使用该模型的条件.相反.我们应该 
询问观测组形成的原因^若它是我们研究对象的某些决定 
带来（如不进行奢侈品消费）的.则删截模型并不适合=此处 
我们真正需要的是选择性样本模型-先单独拟合选择过 
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程.再估计因变量的条件期望。而另一种情况则是^值的限 
制由外生性变量导致，如数据收集和记录（如本书开始的考 
试成绩例子）.则毫无疑问删截模型是适合的。 

当 y 为个体选择的函数时.使用删截模型还是选择性 
样本模型取决于我们对潜在变量 y 的本质的理解和解释。 
如我们 假设， 是渴望受教育的年限。我们假设对于完成最 
低年限后仍留在学校的人而言，其观测教育年限^即为。 
但对于那些在最低年限退出的人，其渴望年限小于或等于最 
低年限。若我们关注渴望年限.则考虑其在最低年限后是否 
留在学校的决定过程对渴望年限本身来说是不重要的，因 
而.删截模型这时就是适合的。而另一方面.奢侈品消费的 
潜在变量为消费愿望.它可以为 负数。 此时马代拉可能是正 
确的.因为我们需要对是否消费和消费额度分别进行估计。 
这并不是方法论的问题.而是对问题和理论的理解的问题。 
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第5节 | 结论 

變4^^夢. . v . . . .. 


本书介绍了当因变量存在删截、样本选择性和截断问题 
时常用的分析技术。我们将其与其他方法相联系，以举例说 
明基本方法怎样被扩展到不同的方面。在本书结尾，我们对 
模型的谨慎使用作出提醒。本书所讨论的估计量的优良特 
性只对大样本有效，且这些模型在违反正态性和同方差假设 
时，远不如 OLS 模型表现得稳健。但选择性样本和删截问题 
在社会科学中非常普遍，本书用采纳这类技术的许多社会科 
学论文进行举例和检验。尽管我们需要谨慎使用这些方法， 
但毫无疑问它们能对大量问题提供有价值、有意义的解决 
办法。 










96 


刪 截、选择性样本及截断数据的回归樓型 


附录1 I 截断正态分布变量的期望值 


该附录说明截断的正态分布随机变量之期望值的标准 
结果。令 M 为均值0,标准差 a 的正态分布随机变量，则当 M 
自数值 m 被截断时,其期望 值为： 

A 1 由上截断 


u ^ m 的概 率为： 

m 

o(~)= [ — ^^exp (— t 2 /2)dt 

V 0 1 i 

而《<撕时《的条件期望 £(m I 为： 




A 2 由下截断 


u > m 的概 率为: 


i 士 一 2 / 触= 
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而 m 〉 m 时 m 的条件期望丨 w > / n ) 为： 

令 ( WtJ ) 

1 — <^( m / a ) 

由于正态分布的对称性，方程 A 1 和 A 2 也可由另一种 
方式写出，因而导致混淆。我们的观点是，正态分布的对称 
性此处意味着 两点： 首先， 1 — = ^>(- m / a ); 其次， 
= j >(— m / o ) 0 例如我们定义 m = c — x : P ， 则 E(w | m 
> c — x : p ) 可写作： 



后者则是我们在 Tobk 模型中使用的项。同样的 ，£ U | 
c - X ： p ) 可以 写作： 




( )H 
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附录 2 I 切希尔和艾利时 （Chesher & 
Irish ) 的正态性及异方差检验 


使用切希尔和艾利时的检验需要估计四个矩残差， p "' 
m 等于1到4。 另 z , 为表示是否删截的变量=0表示删 
截），并且怂=，且 X ( t ) 表示逆米尔斯比率。则 Tobit 
模型的四个矩残 差为： 

e {{) 二 一（ 1 — ) 入(々, ） + z , (1 — 々, ） 

e (2) = (1 — z, 、 k,\(k,) +z ; — 々 ,）-1 

e ic,) =— (1 — a ) (2 十 f ) X ( k ,) + a (上一々, ) 

二 (1 — 2：,) (3^ ( + k] )\(k l ) c, (+- &) -3] 

实际中，我们用 P 和 c 的估计值来计算这些数值。 

为检验正态性.矩阵 R 的元 素为： 

fU ) x , 广、 p (.” 

若 X 包含常数项.则义〜可被省略。在实际运用切希尔和艾 
利时的方法检验正态性时•我们对每一项观测都计算 
的值.并以模型中的每一个变量 A (包括常数项）.々= 
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1,…， K ， 乘以的值来构成一组新的变量。因而我们会 
得到有 K +2 列的新矩阵 R 。 然后我们用一组向量一对 R 进 
行回归，得到解释平方和。拉格朗日乘数服从卡方分布，且 
在该例中自由度为2。若拉格朗日乘数超过自由度为2的卡 
方值，则我们应拒绝正态性的零假设。 

异方差检验遵循非常类似的方法。切希尔和艾利时同 
样给出了 probit 模型的 R 矩阵元素。这对我们非常有用，它 
可以为选择性样本模型的选择等式提供正态性检验。但有 
一点值得注 意：当 样本量很小时，该检验不 可信。 它只在样 
本量相对较大时适用。 



删截、选择性样本及截断数据的回归模型 


注释 


[1 ] 我们假设即使有上限，也可因为估计需要将其忽略。 

[2] 在格朗诺 ( Grormu , I 974 } 和刘易斯 （ Lewis . I 974 ) 早期工作的基础上， 
赫克曼 （ Heckman . 1976) 最先提出这一结构并发展了这一两步骤 
方法。 

[ 3 ] Tobh 为 Tobin probit 的缩写。 

[ 4 ]例如，离散变量 z 的期望 值为： 

= I) 

而连续变量 2 的期望值为： 



其中/表示密度函数。 

[5] 关亍一致性和渐进无煸性的区别，参见达利密斯 （ Dhrymes * 1989： 

8 fS —89)。 

[6] 另一问题涉及对数似然函数的复 杂性。 例如，若我们定义的模型中包 
含非常复杂的多元积分.则最大似然估计法可能在事实上难以实施。 

[7] 这四项偏导皆在假设 r =的情况下获得 t 但若该假设不成立.则除 
方程 2. 20 c : 外，其他儿项偏导并不发生变化 ; .对于方程 2. 20 c ， 我们应 
考虑 A 的变化影响某观测值取非零阈值 r 的概率的局部效应，即在方 
程中加入•一•项一中(: ：) iVV - 

[8] 此处我们使用了微分的乘法法则。即在= fU)gU) 时 0 对/的导 
数等于 ./’ Cr ) g ' U ) 十 /( x ) g U ), 其中 ' 表示函数的导数。该分解式仅 
在 r = 0时成立，若该条件不满足.则我们应在方程中加人一项，表示 
- r , 的变化对观测值取非零阈值 f 的概率的影响= 

[9] 由于霍诺汉和诺兰 （Honohan Nolan . 1993 } 在其 Tobh 模型中并未 

报告误差项的方差估计，因而我们无法计算收人对拥有金融资产的概 
率的偏导 数,， 

[10] 在第1章我们已经部分讨论过这一问题。斯托增伯格和雷利 （ Stolzeri - 
berg 8- Relics * 1990:表〗 ） 为我们列举了《美国社会学评论》 
Sociological Revieu' ) 杂志中使用赫克曼技术修正选择性样本偏误的 
文章。 

[11] 在因变量为收人的情况下，我们常令 y 为收人的转换形式.如其对数。 

J2 ： 这是-个简化模型.它假设工作资源是充足的.因而使得个人是否获得 



工作完全取决于其自身选择。 

[13] 此处我们讨论的是潜在变 M . v ’ 的误差项的异方差 = 应注意将其与第3 
章中讨论的赫克曼两步法1结果等式中的异方差问题相区别 t 

[14] 此时若使用本章稍后将讲到的一般化方法.仍可构建对数似然函数 = 
李的方法的稳健性在用于多项选择模型时遭到了 Schmcrtmann 的质 
疑 （1 >叫>.尽管这项批评在仅仅使用—兀选择时并不适 fi 

[1^：|《计 量经 I 齐羊分志 .U 及格拉格.邓 t ( Gn_g Duman ) 编辑的未疋 
误差分布的连续与离散经济1十量穿 都讨论 f 删 ft 冋归模型 
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